微博表情符号预测:2019年SpringNJU数据挖掘课程最终竞赛 源码
微博后表情符号预测 数据描述和预处理 任务是为用户的帖子预测合适的表情符号。 共有72种不同的表情符号(标签),整个数据由约82万个帖子及其相应的标签组成。 标签的出现极为不平衡,其中最流行的表情符号笑声出现的次数是稀有表情符号的数百倍。 实际上,几乎所有标签发生的次数都比笑哭的次数少10倍以上。 大部分帖子内容都是用中文写的,少数是英文,数字和其他表情符号,这不是我们想要预测的标签。 这使清理数据变得困难。 我刚刚更换麻烦英文引号(”和‘)与’'和删除结束线的标记。然后我把所有的工作和 。词汇向量我使用来自。具体来说,在微博上加上,这正是我们要在其上训练模型的域。我尝试了仅以单词为上下文特征
文件列表
weibo-emoji-predict-master.zip
(预估有个11文件)
weibo-emoji-predict-master
bert_util.py
4KB
bert_classifier.ipynb
36KB
textcnn.ipynb
36KB
data_loader.ipynb
14KB
util.py
7KB
LICENSE
11KB
bert.py
5KB
requirements.txt
4KB
.gitignore
1KB
暂无评论