内容简介 《世界著名计算机教材精选:数据挖掘十大算法》详细介绍了在实际中用途最广、影响最大的十种数据挖掘算法,这十种算法是数据挖掘领域的顶级专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。《世界著名计算机教材精选:数据挖掘十大算法》对每一种算法都进行了多个角度的深入剖析,包括算法历史、算法过程、算法特性、软件实现、前沿发展等,此外,在每章最后还给出了丰富的习题和精挑细选的参考文献,对于读者掌握算法基本知识和进一步研究都非常有价值,对数据挖掘、机器学习和人工智能等学科的课程的设计有指导意义。 目录 第1章C4.5 1 1.1引言2 1.2算法描述3 1.3算法特性6 1.3.1决策树剪枝6 1.3.2连续型属性8 1.3.3缺失值处理8 1.3.4规则集诱导9 1.4软件实现10 1.5示例10 1.5.1 Golf数据集10 1.5.2 Soybean数据集11 1.6高级主题11 1.6.1二级存储12 1.6.2斜决策树12 1.6.3特征选择12 1.6.4集成方法12 1.6.5分类规则13 1.6.6模型重述13 1.7习题14 参考文献15 第2章k-means18 2.1引言19 2 .2算法描述19 2.3可用软件22 2.4示例23 2.5高级主题27 2.6小结28 2.7习题28 参考文献29 第3章SVM: 支持向量机31 3.1支持向量分类器32 3.2支持向量分类器的软间隔优化34 3.3核技巧35 3.4理论基础38 3.5支持向量回归器40 3.6软件实现41 3.7当前和未来的研究41 3.7.1计算效率41 3.7.2核的选择41 3.7.3泛化分析42 3.7.4结构化支持向量机的学习42 3.8习题43 参考文献44 第4章Apriori47 4.1引言48 4.2算法描述48 4.2.1挖掘频繁模式和关联规则48 4.2.2挖掘序列模式52 4.2.3讨论53 4.3软件实现54 4.4示例55 4.4.1可行示例55 4.4.2性能评估60 4.5高级主题61 4.5.1改进Apriori类型的频繁模式挖掘61 4.5.2无候选的频繁模式挖掘62 4.5.3增量式方法63 4.5.4稠密表示: 闭合模式和最大模式63 4.5.5量化的关联规则64 4.5.6其他的重要性/兴趣度度量方法65 4.5.7类别关联规则66 4.5.8使用更丰富的形式: 序列、树和图66 4.6小结67 4.7习题67 参考文献68 第5章EM72 5.1引言73 5.2算法描述74 5.3软件实现74 5.4示例75 5.4.1例5.1: 多元正态混合75 5.4.2例5.2: 混合因子分析78 5.5高级主题80 5.6习题81 参考文献87 第6章PageRank90 6.1引言91 6.2算法描述92 6.3一个扩展:Timed-PageRank95 6.4小结96 6.5习题96 参考文献97 第7章AdaBoost98 7.1引言99 7.2算法描述99 7.2.1符号定义99 7.2.2通用推举过程100 7.2.3AdaBoost算法101 7.3示例103 7.3.1异或问题求解103 7.3.2真实数据上的性能104 7.4实际应用105 7.5高级主题107 7.5.1理论问题107 7.5.2多类别AdaBoost110 7.5.3其他高级主题111 7.6软件实现111 7.7习题112 参考文献113 第8章kNN: k-最近邻115 8.1引言116 8.2算法描述116 8.2.1宏观描述116 8.2.2若干议题117 8.2.3软件实现118 8.3示例118 8.4高级主题120 8.5习题121 致谢121 参考文献122 第9章Naive Bayes124 9.1引言125 9.2算法描述125 9.3独立给力127 9.4模型扩展128 9.5软件实现130 9.6示例130 9.6.1例1130 9.6.2例2132 9.7高级主题133 9.8习题133 参考文献134 第10章CART: 分类和回归树136 10.1前身137 10.2概述138 10.3示例138 10.4算法描述140 10.5分裂准则141 10.6先验概率和类别均衡142 10.7缺失值的处理144 10.8属性的重要度145 10.9动态特征构造146 10.10代价敏感学习147 10.11停止准则、剪枝、树序列和树选择147 10.12概率树149 10.13理论基础150 10.14 CART之后的相关研究150 10.15可用软件151 10.16习题152 参考文献153 《世界著名计算机教材精选:数据挖掘十大算法》详细介绍了在实际中用途最广、影响最大的十种数据挖掘算法,这十种算法是数据挖掘领域的顶级专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。《世界著名计算机教材精选:数据挖掘十大算法》对每一种算法都进行了多个角度的深入剖析,包括算法历史、算法过程、算法特性、软件实现、前沿发展等,此外,在每章最后还给出了丰富的习题和精挑细选的参考文献,对于读者掌握算法基本知识和进一步研究都非常有价值,对数据挖掘、机器学习和人工智能等学科的课程的设计有指导意义。