IBM数据生成器Seq IBM数据生成器,seq类型,适合用于关联分析生成事务数据库,方便快捷;其中类似T40I10D100K的数据就是通过IBM数据生成器生成的。使用方法:bin/seq_data_generatorseq[options]
深入理解大数据一书的源代码 《深入理解大数据》一书的源代码,里面包含许多经典例子的代码,java实现,易读性强,包含MapReduce的K-Means聚类算法、KNN最近邻分类算法、朴素贝叶斯分类算法、决策树分类算法等,还有基于MapReduce的搜索引擎算法、大规模基因序列化比对算法、重复文档检测算法等
AnApproachtoOptimizedResourceSchedulingAlgorithmforOpen_sourcepdf An Approach to Optimized ResourceScheduling Algorithm for Open-source 这篇论文比较难找,是一片发表在IEEE上面的文章,贡献出来给大家