a81320的所有下载-用户-卡了网

2020年中国面向人工智能新基建的知识图谱行业白皮书.pdf

2020年中国面向人工智能“新基建”的知识图谱行业白皮书

MSRA NER中文命名实体识别

MSRA-NER (SIGHAN2006) 数据集由微软亚研院发布,其目标是识别文本中具有特定意义的实体,包括人名、地名、机构名。

ChnSentiCorp中文情感分析数据集

ChnSentiCorp 是一个中文情感分析数据集,包含酒店、笔记本电脑和书籍的网购评论。

Stanford Sentiment Treebank标准情感数据集

Stanford Sentiment Treebank 是一个标准情感数据集,主要用于情感分类,其中每个句子分析树的节点均有细粒度的情感注解。该数据集由斯坦福大学的 NLP 组发布,其中句子和短语共计 239232 条,相较于忽略单词顺序的大多数情绪预测系统,这套深度学习模型建立了基于句子结构的

中文实体关系抽取数据集Chinese Literature NER RE Dataset

基于几个可用的NER和RE数据集定义了7个实体标签和9个关系标签。实体(Entity):每个实体都由带有多个属性的T标签标识。关系(Relation):每个关系由R标签标识,该标签可以具有多个属性。

中文突发事件语料库CEC Corpus.zip

中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到

cMedQA2中文医学问答数据集

中文医药方面的问答数据集,超过10万条。数据说明:questions.csv:所有的问题及其内容。answers.csv :所有问题的答案。 train_candidates.txt, dev_candidates.txt, test_candidates.txt :将上述两个文件进行了拆分。

GMB Groningen Meaning Bank语料

这是GMB语料库的摘录,经过标记,注释和构建,专门用于训练分类器以预测命名实体,例如名称,位置等。使用GMB(Groningen Meaning Bank)语料库进行命名实体识别的带注释语料库,该语料库通过自然语言处理将具有增强和流行特征的实体分类应用于数据集。

复旦中文文本分类语料库.zip

本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。(使用时尽量注明来源(复旦大学计算机信息与技术系国)

瑞金医院糖尿病数据集

数据集来自天池大赛。此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。