斯坦福问答数据库(The Stanford Question Answering Dataset,简称SQuAD),从Wikipedia文章中提取出的问题和答案对,从500多篇文章中摘取出的10万多个问题和答案。
暂无评论
搜狗中文语料库,涉及运动休闲、人文科学、生活百科、艺术设计、医学医药等十大领域。
COCA美国当代语料库,美国人日常生活中所有接触的文字信息处理后提取出来的最高使用频率的单词表。
使用简单,功能很全。ntConc是一款跨平台(即Windows、Linux与苹果电脑都有对应版本)的语料库分析统计软件,由日本学者LaurenceAnthony博士从2002年研发至今,历时13年的历
语料库标注工具SUTDAnnotator,研究自然语言处理的同学推荐使用。
《现代汉语语料库加工规范——词语切分与词性标注》词性标记
用于情感分析案例的语料库,亲测有效。积极、消极各5000条数据。
TFIDF java实现 可运行多文件语料库 亲测可行 语料库为《人民日报》相关权威新闻
reuters21578语料库,是文本挖掘必备的语料库。本人专业为文本挖掘,欢迎同行交流分享经验。
中英文平行语料库,用于机器翻译,问答系统等模型的预处理语料
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
暂无评论