贝叶斯定理是基于假设的先验概率给定假设下观察到不同数据的概率提供了一种计算后验概率的方法数据样本X X1X2Xn n维特征向量类别C C1C2Cm P Ci si s计算其中si是类Ci中的训练样本数而s是训练样本总数关键计算P XCi  注P X对于所有类为常数不予考虑1.收集数据各种方式2.准备数据数值型或布尔型数据3.分析数据提取特征4.训练算法计算错误率5.使用算法计算每个类别中的文档数目对每篇训练文档对每个类别如果词条出现在文档中增加该词条的计数值增加所有词条的计数值对每个类别对每个词条将该词条的数目除以总词条数目得到条件概率返回每个类别的条件概率设某文档d t1t2tk tk是该文档中出现过的单词允许重复.P c类c下单词总数整个训练样本的单词总数P tk c类c下单词tk在各个文档中出现过的次数之和1类c下单词总数V V是训练样本的单词表即抽取单词单词出现多次