基于MapReduce和分布式缓存的KNN分类算法研究

qq_76501 11 0 PDF 2020-10-28 07:10:41

随着大数据时代的到来,K最近邻(KNN)算法较高的计算复杂度的弊端日益凸显。在深入研究了KNN算法的基础上,结合MapReduce编程模型,利用其开源实现Hadoop,提出了一种基于MapReduce和分布式缓存机制的KNN并行化方案。该方案只需要通过Mapper阶段就能完成分类任务,减少了TaskTracker与JobTracker之间的通信开销,同时也避免了Mapper的中间结果在集群任务节点之间的通信开销。通过在Hadoop集群上实验,验证了所提出的并行化KNN方案有着优良的加速比和扩展性。

用户评论
请输入评论内容
评分:
暂无评论