针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先,将论坛文本进行预处理以删除无用词,并基于N-gram 统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性。