资料集 用于训练和验证模型的Twitter数据集是密歇根大学Kaggle竞赛数据集和Neik Sanders创建的“ Twitter情感语料库”的组合。 这些数据集总共包含1,578,627条标记为正或负的推文。 您可以获取数据集! 我们还在嵌入层中使用了GloVe(单词表示的全球向量)进行了预训练。(您可以下载Twitter的Glove ^^ 火车 我们通过多种方式处理数据,例如: URL被标记替换。 连续重复两次以上的任何字母都将被该字母的2次重复替换(例如,“ sooooo”被替换为“ soo”) 使用dicos数据集修复错误的单词 几个表情符号被代币替换 所有推文均小写。 我