随着经济与社会的发展,数据挖掘技术广泛应用到各个领域,其中分类算法中的决策森林(Decision Forest)成为一个研究热点。决策森林算法是一种包含多个决策树分类器的统计学习理论,能较好地处理噪声且避免发生过拟合。针对几种典型的决策森林算法,阐述了其原理和算法的特点,并从决策森林的构建过程出发,系统地分析和总结了国内外现有的决策森林算法。在此基础上,详细说明了在面对大数据时应用决策森林进行分布式计算的处理过程。通过比较,总结出了各种决策森林算法的适用范围。