书在介绍了数据挖掘原理的基础上,从实用的角度出发,详细地介绍了数据挖掘的经典算法。本书是国内第一本对数据挖掘技术基础算法进行详细描述的实用性教材。 第1章从不同的角度对数据挖掘进行了介绍。第2章介绍了数据仓库技术的概念并给出了数据立方体的理论基础。第3章讲述了数据挖掘的数据预处理所涉及到的概念及算法。第4章~第8章详细介绍了数据挖掘的经典领域的算法,其中第6章简单介绍了数据可视化的内容。第9章介绍了开放的数据挖掘平台。 本书的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员。 第1章 导论 1.1 数据挖掘的社会需求 1.2 什么是数据挖掘 1.3 数据挖掘的数据来源 1.4 数据挖掘的分类 1.4.1 分类分析(Classification Analysis) 1.4.2 聚类分析(Clustering Analysis) 1.4.3 关联分析(Association Analysis) 1.4.4 序列分析及时间序列(Sequence Analysis and Time Sequence) 1.4.5 孤立点分析(Outlier Analysis) 1.4.6 其他分析 1.5 数据挖掘的体系结构与运行过程 1.5.1 数据挖掘 的体系结构 1.5.2 数据挖掘的步骤 1.5.3 实例 1.6 数据挖掘与其他相关技术 1.6.1 数据挖掘与数据库中的知识发现 1.6.2 数据挖掘与OLAP 1.6.3 数据挖掘与人工智能和机器学习 1.6.4 数据挖掘与统计学 1.6.5 数据挖掘与客户关系管理 1.6.6 软硬件发展对数据挖掘的影响 1.6.7 XML与面向Web的数据挖掘技术 1.7 数据挖掘工具的评价标准 1.8 数据挖掘的应用 1.9 数据挖掘的要求及挑战 第2章 数据仓库技术 2.1 数据仓库概述 2.1.1 数据仓库的定义 2.1.2 数据仓库查询系统 2.1.3 OLTP与OLAP 2.1.4 数据仓库与数据集市 2.1.5 数据仓库系统的结构 2.1.6 数据仓库中的元数据管理 2.2 联机分析处理(OLAP) 2.2.1 OLAP的功能及体系结构 2.2.2 OLAP数据组织模型 2.2.3 数据仓库的建模 2.2.4 OLAP的Web结构 2.2.5 OLAP数据查询机制 2.3 多维数据模型 2.3.1 数据模型 2.3.2 代数操作 2.3.3 数据集合维护操作 2.4 海威数据仓库系统简介 2.4.1 Highway Decision Center V1.0系统结构 2.4.2 Highway Decision Center V2.0系统结构 2.4.3 海威数据仓库网络结构 2.5 数据仓库应用举例 2.5.1 信用卡资信分析 2.5.2 贷款分析 第3章 数据挖掘中的数据预处理 3.1 概论 3.1.1 预处理的基本功能 3.1.2 预处理的主要方法 3.2 数字属性的离散化与特征选择 3.2.1 Chi2算法简介 3.2.2 举例 3.2.3 讨论 3.3 数据的采样 3.3.1 数据挖掘不同领域中的采样 3.3.2 数据挖掘中的采样方法 3.3.3 静态与动态采样 3.4 概念分层 3.4.1 数据库中的面向属性的归纳 3.4.2 概念分层的动态提炼 3.4.3 针对数字属性的概念分层的自动产生 第4章 关联规则 4.1 关联规则挖掘的基本概念 4.2 关联规则的发现算法 4.2.1 发现大的项集 4.2.2 算法Apriori 4.2.3 算法AprioriTid 4.2.4 算法AprioriHybrid 4.2.5 生成规则 4.3 多值属性关联规则 4.3.1 基本概念 4.3.2 MAQA算法 4.3.3 确定多值属性划分的聚类算法CP 4.3.4 合并数量属性的相邻值 4.4 多层关联规则挖掘 4.4.1 概念层次(Conceptual Hierarchies) 4.4.2 同层(Same Hierarchy)关联规则挖掘 4.4.3 混合层(Mixed Hierarchies)关联规则挖掘 4.4.4 交叉层(Cross Hierarchies)关联规则挖掘 4.5 约束性关联规则发现方法及法 4.5.1 问题陈述 4.5.2 过滤事务数据库 4.5.3 算法Separate 4.5.4 扩展的约束条件 4.6 关联规则的增量式更新算法 4.6.1 IUA算法 4.6.2 PIUA算法 第5章 数据分类 5.1 决策树基本算法 5.1.1 决策树生成算法 5.1.2 决策树的修剪 5.2 决策树ID3 5.2.1 基本概念 5.2.2 定义 5.2.3 ID3算法 5.3 决策树学习算法C4.5 5.3.1 使用增益比例 5.3.2 处理未知值的训练样本 5.3.3 有连续值的属性 5.3.4 规则的产生 5.3.5 交叉验证(Cross Validation) 5.3.6 C4.5的工作流程 5.4 分类与回归树(CART) 5.4.1 基本定义 5.4.2 构建树算法 5.4.3 修剪(Pruning) 5.4.4 决策树讦估(Estimation) 5.4.5 内存管理及时间复杂性分析 5.5 SLIQ:一种快速可扩展的分类算法 5.5.1 扩展性问题 5.5.2 SLIQ分类器 5.5.3 数据结构及算法 5.6 SPRINT:数据挖掘中一种可扩展的并行分类器 5.6.1 串行算法 5.6.2 分类并行化 第6章 多维访问与数据可视化 6.1 多维访问方法 6.1.1 引言 6.1.2 空间数据的结构 6.1.3 基本的数据结构 6.2 R-树及R*树:空间搜索的动态索引树 6.2.1 R-树的索引结构 6.2.2 搜索及更新 6.2.3 Choose Subtree算法 6.2.4 R*树的分裂 6.2.5 强迫重插入 6.2.6 R*树:一个有效的点存取方法 6.3 多维数据的平行坐标表示法 6.4 圆形分段及基于相似性的排列 6.4.1 圆形分段:一种大数据量多维数据可视化技术 6.4.2 基于相似性原理的多维数据排列的可视化技术 第7章 聚类分析 7.1 基础知识 7.1.1 距离与相似系数 7.1.2 聚类的特征与聚类间的距离 7.2 分层聚类法 7.2.1 最短距离法 7.2.2 最长距离法 7.2.3 中间距离法 7.2.4 其他方法 7.3 分割聚类算法CLARANS 7.3.1 PAM算法 7.3.2 CLARA算法 7.3.3 基于随机搜索的聚类算法CLARANS 7.4 聚类算法k-means及k-modes 7.4.1 k-means算法 7.4.2 改进的k-means算法 7.4.3 大型离散数据集的快速聚类算法 7.5 高维度数据的自动子空间聚类算法CLIQUE 7.5.1 问题描述 7.5.2 算法 7.6 OPTICS:识别聚类结构的对象排序 7.6.1 根据聚类结构对数据库排序 7.6.2 识别聚类结构 7.6.3 自动化技术 7.7 利用分层的平衡迭代归约及聚类 7.7.1 聚类特征(Clustering Feature)及CF-树 7.7.2 CF-树重建算法 7.7.3 BIRCH聚类算法 7.7.4 阶段1的算法 7.7.5 阶段2的算法 7.7.6 阶段3的算法 7.7.7 阶段4的算法 7.7.8 内存管理及时间复杂性分析 7.8 大型数据集中孤立点挖掘的高效算法 7.8.1 问题定义 7.8.2 嵌入式循环及基于索引的算法 7.8.3 基于分区的算法 第8章 序列模式与时间序列 8.1 序列模式的数据挖掘 8.1.1 基本定义 8.1.2 序列模式的发现 8.1.3 序列阶段 8.2 时序数据库中相似序列的挖掘 8.2.1 基于ARMA模型的序列匹配方法 8.2.2 基于离散傅里叶变换的时间序列相似性快速查找 8.2.3 基于规范变换的查找方法 8.3 在数据库中发现具有时态约束的关联规则 8.3.1 问题描述 8.3.2 带时态约束的关联规则发现算法 第9章 开放式的数据挖掘系统 9.1 OLE DB For DataMining 9.1.1 OLE DB For DataMining简介 9.1.2 OLE DB For DataMining编程基础 9.2 可预测模型描述语言(PMML) 9.2.1 简介 9.2.2 一个简单的PMML例子 9.3 产品简介 9.3.1 背景 9.3.2 产品目标 9.4 系统结构 9.4.1 用于OLAP系统的数据挖掘应用系统结构 9.4.2 基于B/S结构的应用框架 9.4.3 逻辑模块结构设计 9.5 Web服务技术 9.6 输入和输出 9.6.1 系统输入:OLTP、OLAP及其他 9.6.2 利用可视化技术构造可理解的知识展现 9.7 应用模式 9.8 现状与前景