nlp corpora:社区构建的NLP语料库的高质量存储库 源码
语料库 社区构建的NLP语料库的高质量存储库 该项目旨在收集可用于NLP研究人员的共享语料库,该库可在UW内部使用。 社区构建-鼓励使用新语料库! 官方基准测试任务,大规模的配方刮涂,旧小说的收藏-所有这些都是值得欢迎的。 高质量-每个语料库都经过审查过程,以确保它是标记版本,并且具有已知状态,一致的结构和充足的文档。 添加后,语料库将变为只读,以防止意外修改。 每天的搜寻器都会对整个集合进行索引,并对每个主体的每个文件执行多项检查(可浏览)。 可访问UW —所有语料库都位于UW CSE部门文件服务器上的/projects/nlp-corpora/ ,在此它们可享受自动备份。 EE,语言学或其他部门的朋友可以。 有关所有语料库的实时可浏览索引,以及访问语料库和提出新建议的说明,请参见下文。 实时状态 该表包含所有语料库的实时视图。 它由爬虫每天更新,该爬虫会扫描所有语料库并检查它
文件列表
nlp-corpora-master.zip
(预估有个19文件)
nlp-corpora-master
disk-usage.svg
37KB
BUILD.txt
2KB
doc
roc-stories
README.md
121B
byu-now
README.md
5KB
byu-coha
README.md
5KB
暂无评论