中文微博语料库2014.包含COAE2014会议五个任务的评测数据,任务1 :面向新闻的情感关键句抽取与判定 在给定新闻集合(每篇文章已切成句子)中,判别每篇文章的情感关键句 。 任务2:跨语言情感倾
这个语料库大概有上万条对话,都是中文的,免费分享给大家。缺点是使用的语法都是最基本的语法,没有一些华丽的对话设置。
语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。
本资源使用2012年6-8月搜狐新闻内容整理后获得,解压后大小为281M,包含12个分类:IT、财经、股票、基金、教育、军事、理财、母婴、女性、汽车、体育、娱乐。其中军事新闻最少(507篇),体育新闻
NLPCC2014的层次文本分类语料包含训练集和测试集,已经清洗过了
该语料一共九个类,每类500个文档,是我从搜狗Reduced语料中抽取的类内耦合度较大的一部分语料,比较适合聚类。
LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and As
复旦谭松波的,别人辛苦整理,免费发布的东西,拿过来自己赚积分,绝了 数据说明 answer.rar为测试语料,共9833篇文档; train.rar为训练语料,共9804篇文档,分为20个类别。 训练
svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望
AChineseAnalyzerthatutilizesHMM.基于隐马尔科夫模型的中文分析器。