在生物信息学中,对给定氨基酸序列的蛋白质进行分类,检测细微的蛋白质序列相似性或远同源性对于准确预测蛋白质功能和结构都非常重要。提出一种新的基于半监督支持向量机的远同源性检测方法,通过定义序列概率剖面,充分利用大型数据库的非标记数据,并行构筑支持向量机核函数,并结合最近邻分类器实现对任何数据的全覆盖。实验表明,该方法能够大幅提高蛋白质序列分类器的性能与效率。使用并行技术将总体计算时间控制在一定范围,推动了半监督支持向量机分类器的广泛应用。