概率主题模型在文本分类中的应用研究 所属领域:数据挖掘、机器学习、文本分类 数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的 情况下,样本无法准确反映整个空间的数据分布,分类器容易受到大类的影响而忽 略小类。大多数分类算法都是面向均匀分布数据提出的,对于数据偏斜的情况, 仅利用传统的分类方法并不能取得理想的效果。另一