模型结构很简单,文本输入x,先进行embedding,然后将整句话的每个单词向量计算平均值,最后接fc+softmot进行分类。官方论文中的关键点: 1)不使用预训练word2vec,直接利用标签样本进行学习词嵌入矩阵,也许是因为我们最终要通过对词向量做平均得到句向量,所以不追求单个词向量性能? 2)fc隐层输出可作为句向量,供其他任务使用;