使用Word2Vec,XGBoost和自动编码器进行重复问题检测 在这篇文章中,我解决了基于问题对是否重复来对问题进行分类的问题。 对于Quora或Stack Overflow这样的公司来说,这很重要,因为其中张贴的多个问题是已经回答的问题的重复。 如果算法发现重复的问题,则可以将用户定向到该问题并更快地找到答案。 两个重复问题的示例是“如何阅读和查找我的YouTube评论?” 和“如何查看我在YouTube上的所有评论?”,重复出现的问题是“是什么导致某人嫉妒?” 和“我该怎么做才能避免嫉妒某人?”。 有两种方法可以解决此问题: 通过自动编码器方法和动态池进行分类训练的序列编码器 具有