大多数文本为高维且线性不可分。针对中文邮件,首先阐述了邮件预处理的相关方法,利用TF-TDF将邮件向量化。分析了多种常用核函数在SVM中应用于垃圾邮件过滤。阐述了全局核函数和局部核函数的特点,主要针对全局核函数-多项式(Poly)核函数和局部核函数-径向基核(RBF)函数在垃圾邮件分类的准确性做了比较,综合分析后组合两种核函数。实验证明,组合核函数在性能上优于单个核函数,具有较好的学习能力和泛化能力。