关于酒店的评论,很好的情感分析语料,有4个不同的分类,每类超过2000篇
以论文摘要为主的20000+条语料,包含多个学科分类的内容,内容丰富,可做自然语言处理初学者日常学习之用。
中国教育和研究计算机紧急响应垃圾邮件语料库
资源名称 CASIA汉语情感语料库 共包括四个专业发音人,六种情绪,共9,600句不同发音,包括300句相同文本和100句不同文本,可供各种分析实验使用 本数据集包含部分数据 用途 为研究情感语音所设
文本分类语料库,中文,训练集和测试集
搜狗语料库,自己用结巴分词分好的。(为什么摘要必须大于50个字)
语言所公开的现代汉语语料库,通过分别查询3500个常用汉字,将所有数据进行清洗去重后的集合。共554026行,解压后约93.8M,带分词和词性标注。
TFIDF java实现 可运行多文件语料库 亲测可行 语料库为《人民日报》相关权威新闻
通过抓取北大语料库网页,获取词频数据,用的是asp代码,XMLHTTP
搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下:奥运5595个txt房产14695个txt互联网2200个txt健康1153个txt教育2075个txt军事593个txt旅游1802个txt