搜狗中文文本分析语料库

fregbh 31 0 ZIP 2019-05-15 11:05:09

搜狗实验室新闻数据精简版，将xml文本进行处理后分类如下：奥运5595个txt房产14695个txt互联网2200个txt健康1153个txt教育2075个txt军事593个txt旅游1802个txt汽车1405个txt商业12465个txt时尚3490个txt体育17237个txt文化628个txt娱乐6757个txt招聘18个txt由于是个人xml文本处理过的，处理了部分文档，如果需要更多可以联系我。

推荐下载

Coae中文微博语料库

中文微博语料库2014.包含COAE2014会议五个任务的评测数据,任务1 :面向新闻的情感关键句抽取与判定在给定新闻集合(每篇文章已切成句子)中,判别每篇文章的情感关键句。任务2:跨语言情感倾

AIML aiml中文语料库

这个语料库大概有上万条对话,都是中文的,免费分享给大家。缺点是使用的语法都是最基本的语法,没有一些华丽的对话设置。

灵玖LJCorpus中文语料库分析软件

语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。

文本分类新闻语料

本资源使用2012年6-8月搜狐新闻内容整理后获得,解压后大小为281M,包含12个分类:IT、财经、股票、基金、教育、军事、理财、母婴、女性、汽车、体育、娱乐。其中军事新闻最少(507篇),体育新闻

层次文本分类语料

NLPCC2014的层次文本分类语料包含训练集和测试集,已经清洗过了

中文文本新闻精简语料

该语料一共九个类,每类500个文档,是我从搜狗Reduced语料中抽取的类内耦合度较大的一部分语料,比较适合聚类。

兰卡斯特汉语语料库LCMC语料库

LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and As

谭松波文文本分类语料复旦无需积分

复旦谭松波的,别人辛苦整理,免费发布的东西,拿过来自己赚积分,绝了数据说明 answer.rar为测试语料,共9833篇文档; train.rar为训练语料,共9804篇文档,分为20个类别。训练

svmcls文本分类程序含C源代码语料库完整版

svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望

Lucene.Net中文文本分析器

AChineseAnalyzerthatutilizesHMM.基于隐马尔科夫模型的中文分析器。

用户评论

请输入评论内容

评分：

暂无评论