英文分词语料库,共有198796行,每个单词都有词性标注,对句话的结束都有句号,便于处理。覆盖大部分主流行业的语料。例如:Newsweek/NNP,/,trying/VBGto/TOkee
该数据库(http://www.chineseldc.org/resource_info.php?rid=76)由中国科学院自动化研究所录制,由4位录音人(2男2女)在纯净录音环境下(信噪比约为35d
(1)显示赋码首字母,如名词以N开头、动词以V开头。 (2)包含特定赋码首字母的各种语言特征。 (3)用户自定义的各种语言特征,如被动语态等。 (4)显示所选语言特征的正则表达式,用户也可在此编辑表达
来源于人人网小黄鸡语料库,经过一部分处理后,但是并没有分词,可以用于对于中文的常用对话系统训练,也可以进行普通的中文自然语言处理。
里面是2015年搜狗新闻,根据12大学科分类的中文分词资源,包含1127万字。
复旦大学新闻语料库,此为训练集。使用请注明来源:复旦大学计算机信息与科学技术系国际数据库中心自然语言处理小组
中文微博语料库2014.包含COAE2014会议五个任务的评测数据,任务1 :面向新闻的情感关键句抽取与判定 在给定新闻集合(每篇文章已切成句子)中,判别每篇文章的情感关键句 。 任务2:跨语言情感倾
里面有2万字左右的小型简历文本语料库资源,属于应用型文本,供学习和科研使用。
复旦大学新闻语料库,此为测试集。使用请注明来源:复旦大学计算机信息与科学技术系国际数据库中心自然语言处理小组
商城手机评论文本,华为荣耀手机(2款手机评论文本),小米红米手机,OPPO手机各1000条,共4000条。可作为中文分类的训练语料库,用于情感分析,推荐系统等领域。最新的评论资源。