self_dialogue_corpus:自我对话语料库 跨音乐电影和体育的自我对话集合 源码
自对话语料库 这是自对话语料库的早期版本,包含涉及23个主题的24,165个对话或3,653,313个单词。 有关数据的更多信息,请参见或。 统计 类别 计数 话题 23 对话内容 24,165 话 3,653,313 转弯 141,945 不重复使用者 2,717 每个用户的会话 〜9 唯一令牌 117,068 主题包括电影,音乐,体育和其中的子主题。 使用数据 corpus包含来自Amazon Mechanical Turk的原始CSV,按单个任务(主题)排序; blocked_workers.txt列出了不符合任务要求的工人,默认情况下将其省略; get_data.py
文件列表
self_dialogue_corpus-master.zip
(预估有个67文件)
self_dialogue_corpus-master
blocked_workers.txt
59B
LICENSE
1KB
get_data.py
6KB
corpus
beatles
Batch_2842589_batch_results.csv
816KB
harry_potter
Batch_2840961_batch_results.csv
523KB
disney
暂无评论