颜色分类leetcode Factoid based Question Answer Chatbot
颜色分类leetcode回答聊天机器人的事实问题Factoid问答聊天机器人是问答系统的简单版本。它使用信息检索和自然语言处理技术近乎实时地回答用户提出的问题。Chatbot能够以70.16%的准确率(在斯坦福的SQuAD数据集上测量)回答来自各个领域的文章的Factoid和Summarization问题。
概要运行机器人:
t$ python3 P2.py
例如:
t$ python3 P2.py dataset/Marvel_Comics.txt
一旦机器人启动并开始运行,它会要求您输入您的问题并回答。
方法
这个机器人的架构严格遵循书中描述的架构。
QA系统的主要模块有:
-
问题处理:在此步骤中,机器人识别其期望的问题类型和答案类型。
-
Passage Retrieval:它使用TF-IDF作为特征生成问题向量和段落向量,计算问题向量和段落向量之间的余弦相似度,返回前3个非常相似的段落。通过删除停用词和使用Porter Stemmer对这一步进行了进一步改进。
-
句子检索:检索段落后,它标记句子并计算问题和句子的相似度。