在中文微博情感分析的毕业设计中,我们采用了多种机器学习模型,并通过详细对比分析它们在任务中的表现。项目首先利用FastText在较小的语料库上进行词向量训练,通过引入n-gram特征,优于传统的word2vec。训练集包含10000条语料,测试集有500条语料。针对情感分析的二分类任务,我们尝试了SVM、Bayes、DNN、LSTM、Attention+BiLSTM、XGBoost等多种模型。SVM虽然并不是NLP任务的首选,但在项目初期考虑到作者技术水平,选择了该模型。Bayes以其快速的速度和良好的效果脱颖而出,尤其在小规模语料任务中表现卓越。然而,对于大规模任务,其性能可能会受到一定的下降,且磁带模型丧失了语序信息,拓展性有限。DNN的表现相对较差,但当前在NLP领域中较少直接使用DNN。LSTM充分利用上游训练的FastText词向量,并兼顾语序信息,表现明显优于其他模型。Attention+BiLSTM在任务中取得了良好的效果,尽管相较于纯LSTM,提升幅度有限,这主要是由于任务相对简单,语料规模有限。在更复杂的任务中,注意力机制的强大将变得更为明显。XGBoost在机器学习领域被誉为一大杀器,在本项目中也展现了其卓越的性能。