为了获得更好的文本分类准确率和更快的执行效率,研究了多种Web文本的特征提取方法,通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究,利用其各自的优势互补,提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA)。通过PCA算法的正交变换快速地将文本特征空间降维,再通过多重组合特征提取算法在降维后的特征空间中快速提取出更具代表性的特征项,过滤掉一些代表性较弱的特征项,最后使用SVM分类器对文本进行分类。实验结果表明,PCA-CFEA能有效地提高文本分类的正确率和执行效率。