中文聊天对话语料chinese chatbotcorpus
# 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 - chatterbot - 豆瓣多轮 - PTT八卦语料 - 青云语料 - 电视剧对白语料 - 贴吧论坛回帖语料 - 微博语料 - 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 **使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。* # 环境 python3 # 处理过程 将各个来源的语料按照其原格式进行
文件列表
chinese_chatbot_corpus-master.zip
(预估有个19文件)
chinese_chatbot_corpus-master
util.py
1KB
config.py
1KB
main.py
975B
language
__init__.py
0B
zh_wiki.py
172KB
langconv.py
8KB
LICENSE
11KB
.gitignore
1KB
暂无评论