中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
这是中文维基百科数据,截至2019年5月20日,官网比较难下载,因此分享出来,可以用7-zip软件解压出来,希望对大家有帮助!
libsvm中文文本分类语料库自动分类
(完整版)来源:复旦大学计算机信息与技术系国际数据库中心自然语言处理小组;由复旦大学李荣陆提供;test_corpus.rar为测试语料,train_corpus.rar为训练语料。
中文情感分析微博语料库是一个包含情感标签的数据集,其中包括10000条训练数据和500条测试数据。每条微博以其唯一标识mid开头,可通过链接访问微博网页(部分微博可能已被博主删除)。情感标签采用0表示
介绍的中文外卖评价语料库,文件名为waimai_10k.csv,是一个非常实用的工具,特别适合用于自然语言处理(NLP)的相关研究和开发。此语料库包含大量中文外卖评价数据,能帮助你快速搭建模型并进行测
最初在中文自然语言处理开放平台上获得,由复旦大学李荣陆博士收集整理
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的
对大规模语料库中的分词不一致现象进行分析,提出了语料库分词一致性检查和校对的新方法。该方法提取词与词之间语法、语义搭配信息,利用支持向量机的理论对候选序列进行判断,给出一个切分结果,进而提高汉语语料库
精选微软亚洲研究院在EMNLP-2019上的论文,包括BERT的有效性、风格迁移、开放域对话、大规模知识图谱的对话问答、神经机器翻译、优化非自回归模型,以及多语言机器翻译7个工作。欢迎大家下载学习。
用户评论