imdb_dataset.zip
该数据集为imdb的文本二分类数据集,从keras下载之后,将句子都还原为了英文单词,并将训练集和测试集都保存为了pickle格式,命名为imdb_train_rawtext.pkl和imdb_test_rawtext.pkl; 原始的keras上下载的数据集每个词都直接用序号表示,不适合使用BERT等预训练模型来处理,因此发布了该版本; 压缩包中同样包括了原始的imdb数据集,便于网速不好的同学直接下载使用;
文件列表
imdb_dataset.zip
(预估有个4文件)
imdb_train_rawtext.pkl
31.45MB
imdb.npz
16.66MB
imdb.pkl
31.67MB
imdb_test_rawtext.pkl
30.31MB
暂无评论