自对话语料库 这是自对话语料库的早期版本,包含涉及23个主题的24,165个对话或3,653,313个单词。 有关数据的更多信息,请参见或。 统计 类别 计数 话题 23 对话内容 24,165 话 3,653,313 转弯 141,945 不重复使用者 2,717 每个用户的会话 〜9 唯一令牌 117,068 主题包括电影,音乐,体育和其中的子主题。 使用数据 corpus包含来自Amazon Mechanical Turk的原始CSV,按单个任务(主题)排序; blocked_workers.txt列出了不符合任务要求的工人,默认情况下将其省略; get_data.py