数据集和源代码(ICWSM 2018)。 请通过或下载完整的数据集。 1.如何收集数据集 LearningQ是可用于生成教育性问题的数据集。 具体来说,它包含: 从TED-Ed收集的7K讲师设计的问题; 从可汗学院收集的223K个由学习者生成的问题。 还介绍了从中生成问题的源文档(即讲座视频和文章)。 我们将爬网代码作为LearningQ的一部分。 2.数据集中的文件 我们不仅开源i)可以直接用于培训教育问题生成者的过滤数据,而且ii)开放源于TED-Ed和Khan Academy的原始数据。 数据文件列表如下所述。 + LearningQ +---- README.txt +---- code [crawling code for TED-Ed and Khan Academy] +---- data [the originally-collected data and the