支持向量机(SVM)主动学习算法是主动学习中相当著名的算法,但是该算法还存在缺陷,即没有对微博数据内容多样的特点进行考虑,因此提出了一种新的基于SVM的主动学习算法。该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和来度量未标注样本与所有已标注样本点之间的相似性,通过选择与已选择的所有样本不相似的样本点进行标注就可以实现对于数据多样性的充分考虑;另外,为了避免太大的余弦相似度值对于余弦相似度之和的影响,该算法通过设置阈值的方法使得被选择样本的最小余弦相似度尽可能大;除此之外,为了选择最佳的样本进行标注,除了考虑数据多样性之外,算法也对样本点和分类超平面之间的距离进行了考虑。