DataminingGuideBook Codes:《面向程序员的数据挖掘指南》源码 源码
DataminingGuideBook代码 源码 目录 发现什么是数据挖掘,它所能解决的问题的是什么,以及在阅读完本书后,你可以做些什么。 介绍协同过滤,基本的距离算法,包括曼哈顿距离,欧几里得距离,闵科夫斯基距离,皮尔森相关系数。使用Python实现一个基本的推荐算法。 用户能够显示地给于评价(好,差,五星评价等),或者隐式地给于评价-如果用户在亚马逊购买了一个MP3,我们则认为他是“喜欢”这件商品的。 上一章中我们使用用户对商品的评价来进行推荐,这一章我们会使用商品本身的特性来进行推荐。这种算法在潘多拉等网站中采用。 本章会讨论如何评价分类器的效果,方法包括十折交叉验证,留一法,以及Kappa检验等,同时还要发布kNN算法。 我们会在这章探索朴素贝叶斯分类算法,使用概率密度函数来处理数值型数据。 这一章我们会尝试使用朴素贝叶斯算法来对非结构化文本进行分类。 我们会讨论层次聚类和kmea
文件列表
DataminingGuideBook-Codes-master.zip
(预估有个37文件)
DataminingGuideBook-Codes-master
chapter-8
cereal.csv
3KB
kmeansPlusPlus.py
8KB
enrondata.txt
21KB
hierarchicalClustererTemplate.py
4KB
hierarchicalClusterer.py
8KB
kmeans.py
6KB
dogs.csv
279B
chapter-5
暂无评论