Stanford Sentiment Treebank标准情感数据集 Stanford Sentiment Treebank 是一个标准情感数据集,主要用于情感分类,其中每个句子分析树的节点均有细粒度的情感注解。 该数据集由斯坦福大学的 NLP 组发布,其中句子和短语共计 239232 条,相较于忽略单词顺序的大多数情绪预测系统,这套深度学习模型建立了基于句子结构 的
中文实体关系抽取数据集Chinese Literature NER RE Dataset 基于几个可用的NER和RE数据集定义了7个实体标签和9个关系标签。实体(Entity):每个实体都由带有多个属性的T标签标识。关系(Relation):每个关系由R标签标识,该标签可以具有多个属性。
中文突发事件语料库CEC Corpus.zip 中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到
cMedQA2中文医学问答数据集 中文医药方面的问答数据集,超过10万条。数据说明:questions.csv:所有的问题及其内容。answers.csv :所有问题的答案。 train_candidates.txt, dev_candidates.txt, test_candidates.txt :将上述两个文件进行了拆分。
GMB Groningen Meaning Bank语料 这是GMB语料库的摘录,经过标记,注释和构建,专门用于训练分类器以预测命名实体,例如名称,位置等。 使用GMB(Groningen Meaning Bank)语料库进行命名实体识别的带注释语料库,该语料库通过自然语言处理将具有增强和流行特征的实体分类应用于数据集。
复旦中文文本分类语料库.zip 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。(使用时尽量注明来源(复旦大学计算机信息与技术系国)