为了提高基于大规模数据的决策树训练效率提出了一种基于Spark平台的并行决策树算法 (SPDT). 首先,采用数据按列分区的方法,该方法把单个属性列完整地保留在一个分区内,使缓存该分区数据 的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用. 然后,数据 在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用. 最后,SPDT采 用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次, 并提出使用信息增益比来划分训练数据集的方法,以减少信息增益计算对多属性值属性的依