这是文本分类的语料库,希望对研究文本分类的有用。
人民日报语料库
康奈尔电影对话语料库,英文。
美国当代英语语料库 COCA Frequency 60000,适用于欧路,mdict等第三方词典
人民日报2014语料库和很多行业的中文分词库,如财经,地点,电视剧,电影等。如果有需要的可以在此处下载哦。
英文分词语料库,共有198796行,每个单词都有词性标注,对句话的结束都有句号,便于处理。覆盖大部分主流行业的语料。例如:Newsweek/NNP,/,trying/VBGto/TOkee
(1)显示赋码首字母,如名词以N开头、动词以V开头。 (2)包含特定赋码首字母的各种语言特征。 (3)用户自定义的各种语言特征,如被动语态等。 (4)显示所选语言特征的正则表达式,用户也可在此编辑表达
来源于人人网小黄鸡语料库,经过一部分处理后,但是并没有分词,可以用于对于中文的常用对话系统训练,也可以进行普通的中文自然语言处理。
里面是2015年搜狗新闻,根据12大学科分类的中文分词资源,包含1127万字。
上学期自己下载的新闻,新闻时间是在2009年12月末