文本分类可以把未标注类别的文档分到预先定义好的类别中 去。图1.1 是文本分类的示意图。一般来说,文本分类系统是采用有指导学 习(Supervised Learning)方法来构造一个分类器(Classifier)。首先,提供一些标注 Fig. 1.1 The Frame of Text Categorization 好类别的训练样本文档集合;然后,基于这些训练样本,训练分类模型的参 数;这样就构造一个文本分类系统,它可以对新文档进行分类。