基于词频反文档频率TFIDF的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联如果脱离语义提取出的特征不能很好地刻画文档的内容为准确提取特征在信息熵与信息增益的基础上加入词语的语义关联因素实现融合语义信息的特征提取进而提出语义和信息增益相结合的TFIDF改进算法该算法弥补了统计方法丢失语义信息的弊端 文本分类通常有文本的预处理文本的向量空间模型表示文本特征提取和分类器的训练四个