使用简单,功能很全。ntConc是一款跨平台(即Windows、Linux与苹果电脑都有对应版本)的语料库分析统计软件,由日本学者LaurenceAnthony博士从2002年研发至今,历时13年的历
语料库标注工具SUTDAnnotator,研究自然语言处理的同学推荐使用。
《现代汉语语料库加工规范——词语切分与词性标注》词性标记
用于情感分析案例的语料库,亲测有效。积极、消极各5000条数据。
TFIDF java实现 可运行多文件语料库 亲测可行 语料库为《人民日报》相关权威新闻
reuters21578语料库,是文本挖掘必备的语料库。本人专业为文本挖掘,欢迎同行交流分享经验。
中英文平行语料库,用于机器翻译,问答系统等模型的预处理语料
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
这是本人在做自然语言处理使用到的一个语料库,后期也会同步与大家共享资源
维基中文语料库,大小1.6G,所以上传到百度云,之前在csdn找了很久都没找到,只好自己翻墙去下载
用户评论