微博后表情符号预测 数据描述和预处理 任务是为用户的帖子预测合适的表情符号。 共有72种不同的表情符号(标签),整个数据由约82万个帖子及其相应的标签组成。 标签的出现极为不平衡,其中最流行的表情符号笑声出现的次数是稀有表情符号的数百倍。 实际上,几乎所有标签发生的次数都比笑哭的次数少10倍以上。 大部分帖子内容都是用中文写的,少数是英文,数字和其他表情符号,这不是我们想要预测的标签。 这使清理数据变得困难。 我刚刚更换麻烦英文引号(”和‘)与’'和删除结束线的标记。然后我把所有的工作和 。词汇向量我使用来自。具体来说,在微博上加上,这正是我们要在其上训练模型的域。我尝试了仅以单词为上下文特征