暂无评论
人民日报语料库
康奈尔电影对话语料库,英文。
美国当代英语语料库 COCA Frequency 60000,适用于欧路,mdict等第三方词典
人民日报2014语料库和很多行业的中文分词库,如财经,地点,电视剧,电影等。如果有需要的可以在此处下载哦。
英文分词语料库,共有198796行,每个单词都有词性标注,对句话的结束都有句号,便于处理。覆盖大部分主流行业的语料。例如:Newsweek/NNP,/,trying/VBGto/TOkee
该数据库(http://www.chineseldc.org/resource_info.php?rid=76)由中国科学院自动化研究所录制,由4位录音人(2男2女)在纯净录音环境下(信噪比约为35d
来源于人人网小黄鸡语料库,经过一部分处理后,但是并没有分词,可以用于对于中文的常用对话系统训练,也可以进行普通的中文自然语言处理。
里面是2015年搜狗新闻,根据12大学科分类的中文分词资源,包含1127万字。
上学期自己下载的新闻,新闻时间是在2009年12月末
复旦大学新闻语料库,此为训练集。使用请注明来源:复旦大学计算机信息与科学技术系国际数据库中心自然语言处理小组
暂无评论