# 未分词语料
小黄鸡语料库分词以及未分词
小黄鸡语料库,包含分词以及未分词,可以用于自然语言处理。
小黄鸡_未分词_语料库
来源于人人网小黄鸡语料库,经过一部分处理后,但是并没有分词,可以用于对于中文的常用对话系统训练,也可以进行普通的中文自然语言处理
汉语分词语料库
CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
搜狗分类分词语料库
里面是2015年搜狗新闻,根据12大学科分类的中文分词资源,包含1127万字。
msra实体识别与分词语料
msra语料包括实体识别(NER)和分词(seg)已标注数据,包括已标注的训练集和测试集,实体识别采用BIO标注,分词采用BM1
icwb2_data等分词语料
分词相关训练语料数据icwb2-dataicwb2-dataicwb2-data
分词语料_人民日报_201401
该资源为2014年1月分词及标注语料。如果谁有全年切分语料希望能共享出来。
北京大学28288句分词语料
非常权威的北京大学分词语料可用于大规模的中文文本分词
复旦大学分词语料库
复旦大学分词语料库
人民日报语料库中文分词语料库
人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料