复旦大学中文文本分类数据集utf8格式
本语料库由复旦大学李荣陆提供。下载的原始数据编码格式是gb18030,用python解析时报错,这个是用java将数据格式转为utf-8编码格式后的结果。train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。下载后可以自己重新切分数据,也可以直接用。免费下载地址:链接:https://pan.baidu.com/s/1m0stk-0AovdbMNT5-CMdSA密码:2bvz使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
用户评论
推荐下载
-
mysql_connector_java_5135_binjarmysql数据库连接jar包支持utf8mb4格式了兼容utf8格式
mysql-connector-java-5.1.35-bin.jar mysql数据库连接jar包 支持utf8mb4格式了。兼容utf8 兼容mysql各个版本。兼容mysql5.5 5.6等版本
26 2019-02-23 -
UTF8编码格式转换
已整理过的源代码内含ConvertUTF.c和ConvertUTF.h
47 2019-09-04 -
php截取utf8格式的字符串实例代码
主要介绍了php 截取utf-8格式的字符串实例代码的相关资料,并附实例代码,需要的朋友可以参考下
11 2020-10-28 -
解决UTF8格式PHP页面输出空行的简便方法
NULL博文链接:https://fxyc.iteye.com/blog/640079
17 2019-09-23 -
中文转utf8
庄华 16进制方式转化
37 2019-04-05 -
金庸全集UTF8编码TXT格式训练集
简单清洗过的金庸全集TXT格式,可做语言模型的训练集,
53 2019-09-07 -
BatUTF8Conv.exe文件批量转换为utf8格式
压缩包内为BatUTF8Conv.exe--批量将文件格式转换为utf-8,每次批量转换文件数量大概为200多个
34 2019-07-17 -
头条新闻文本分类数据集
头条新闻文本分类数据集,包括11个类别,近50万条数据,文本内容为新闻标题+提取的关键词,分为训练数据和验证数据两个文件
41 2020-11-08 -
搜狗新闻文本分类数据集SougoCS
SougoCS数据集,内含11类搜狐新闻文本,近10万条。搜狗提供的数据为未分类的XML格式。此资源已经将XML解析并分类完毕,方便使用。
124 2019-10-02 -
ag_news文本分类数据集
AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of mo
278 2018-12-08
暂无评论