数据集 dev-v2.0.json:这个数据包含了问题和答案的对,但是以JSON格式存在,需要编写parser来提取出里面的问题和答案。 Gloves.6B:这个文件需要从网上下载,下载地址为: ://nlp.stanford.edu/projects/glove/ 请使用d = 100的词向量(用于PART3) 环境: Python 3(必须要使用Python 3) 简单的问答系统编写 文本的读取:从JSON文件里读数据,并把文本写到问题变量和答案变量中(列表) 文本的预先:需要对原始文本做初步操作,包括一些词的过滤 文本的表示:把文本转换成tf-idf格式/词向量,句子向量 文本相似度计算:利用余弦弦相似度来计算文本之间的相似度 倒排列表:通过倒排列表来加快文档的检索