一、摘要 (该论文的模型创新点在于词向量那里,所以全文的重心偏向于词向量部分) 传统的机器学习方法主要用词袋以及ngram去生成特征向量作为文本表示,从而完成很多任务。但是对于短文本来说,比如tweet,由于短文本字数的限制,传统机器学习如果继续使用词袋和ngram,则可能会存在数据稀疏以及维度问题。 所以现在所提出的词向量,作为神经网络的输入使得文本分类等任务有了更好的效果。 本文提出CNN架构的一种模型。 二、introduction 先指出CBOW、TFIDF、ngram等传统方法,并且传统机器学习使用这些方法不能够表示词的语义,并且存在数据稀疏问题等。所以分布式词向量表示逐渐火热,并且