Brown语料库和LOB语料库
Brown语料库是世界上第一个计算机可读的语料库,它搜集的语料来自1961年美国英语出版物上的文本,共500篇,每篇大约2000个单词,合计100万单词。LOB语料库是模仿Brown语料库的比例建立起来的英国英语语料库,其预料搜集自1961年英国英语出版物上的文本,共500篇,每篇大约2000个单词,合计100万单词。Brown语料库带词性标记,LOB语料库不带词性标记。
用户评论
推荐下载
-
语料库Django应用程序用于收集母语的书面语和口语语料库源码
语料库 corpora是一个Django项目,用于收集不同语言的corpora。 它的构建是为了支持Te ReoMāori的第一种语言。 该应用程序的目标是简化少数族裔语言的语料库收集,以便听写,私人
2 2021-02-22 -
NLP文本分类语料库复旦语料训练集
NLP文本分类语料库(复旦)语料训练集
67 2020-09-24 -
新华社语料库含简体和繁体版语料
这是icwb中文分割训练语料,包含测试集。具体的文件格式请阅读readMe
27 2019-04-28 -
spacy语料库英文版3.0.0
spacy语料库英文版3.0.0
9 2020-12-31 -
text8英文语料库
Text8语料库,自己从ewik8语料库中提取出来的,可以用来训练模型,例如word2Vec模型的训练,注意,只适用于英文!
93 2020-09-21 -
商品评论情感语料库.txt
中文情感分析语料库,包含酒店、服装、水果、平板、洗发水等5个领域的评价数据,每个领域各包含5000条正面和负面评价,数据抓取于携程网和京东,仅供科研学习之用,欢迎下载使用!
29 2020-06-03 -
垃圾邮件语料库正常邮件
垃圾邮件语料库(正常邮件),实验室课题组使用
27 2020-05-18 -
用于文本分类的语料库
分为10个类大概2000篇多文本,可用于文本分类的语料库
32 2020-01-05 -
LJCorpus中文语料库分析软件
LJCorpus中文语料库分析软件专门针对中文的语料库分析软件
70 2019-08-18 -
中英平行语料库八万对句粒度
共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。句粒度,但有不少长句,裁剪后5w对也够用。原始数据集也在包中,其
58 2019-09-03
暂无评论