基于大数据的数据挖掘引擎研究

fanghh42820 15 0 PDF 2021-02-01 16:02:40

为了解决数据挖掘在大数据中存在的问题,文中对大数据下的数据挖掘引擎进行了研究,以Spark作为核心引擎,并在Spark的内存计算算子的基础上,实现了多个传统数据挖掘算法的并行计算,使得传统的数据挖掘算法能在集群环境中并行运行,从而在大数据中得到较好的应用。然后通过系统分层方法,将数据挖掘系统进行分层设计,实现了一个完整的大数据挖掘平台。实验表明,基于Spark实现的Apriori算法跟PageRank算法的并行计算能有效减少执行时间,在大数据挖掘上具有较好的应用。