大数据分析实验包含五个子实验wordCount实验PageRank实验关系挖掘实验k means算法推荐系统算法
1.1实验目的• 理解mapreduce算法思想与流程• 应用mapreduce思想解决wordCount问题• 可选掌握并应用combine与shuffle过程.1.2实验内容提供9个预处理过的源文件source0109模拟9个分布式节点每个源文件中包含一百万个由英文数字和字符不包括逗号构成的单词单词由逗号与换行符分割.要求应用mapreduce思想模拟9个map节点与3个reduce节点实现wordCount功能输出对应的map文件和最终的reduce结果文件.由于源文件较大要求使用多线程来模拟分布式节点.学有余力的同学可以在mapreduce的基础上添加combine与shuffle过程并可以计算线程运行时间来考察这些过程对算法整体的影响.提示实现shuffle过程时应保证每个reduce节点的工作量尽量相当来减少整体运行时间.1.3实验过程
文件列表
大数据分析实验,包含五个子实验:wordCount实验,PageRank实验,关系挖掘实验,k-means算法,推荐系统算法。.zip
(预估有个56文件)
bigdataanalysis
LICENSE
1KB
lab3_Apriori
大数据分析任务书-实验三-关系挖掘-最新.docx
53KB
final.txt
51KB
Apriori.py
4KB
Groceries.csv
594KB
lab5_推荐系统
movies.csv
439KB
test_set.csv
2KB
暂无评论