主题模型目前广泛应用于机器学习与自然语言分析等领域,该模型自动分析一系列未识别的文档,试图通过统计信息发现多个抽象主题。主题模型在新闻文本智能处理与推荐领域的应用前景十分广阔。本文首先从文档自动分类为出发点,介绍文本分析的一般流程。在此基础之上,介绍主题模型和基于LDA模型的文本主题特征提取原理。最后结合Spark大数据处理的内存迭代和分布式计算特性,实现了基于LDA模型的文本主题提取过程,并给出了在新闻文本数据集上的主题抽取与分类预测结果。