Quora_question_pairs_NLP_Kaggle:Quora Kaggle竞赛:使用word2vec嵌入scikit learn和xgboost进
使用Word2Vec,XGBoost和自动编码器进行重复问题检测 在这篇文章中,我解决了基于问题对是否重复来对问题进行分类的问题。 对于Quora或Stack Overflow这样的公司来说,这很重要,因为其中张贴的多个问题是已经回答的问题的重复。 如果算法发现重复的问题,则可以将用户定向到该问题并更快地找到答案。 两个重复问题的示例是“如何阅读和查找我的YouTube评论?” 和“如何查看我在YouTube上的所有评论?”,重复出现的问题是“是什么导致某人嫉妒?” 和“我该怎么做才能避免嫉妒某人?”。 有两种方法可以解决此问题: 通过自动编码器方法和动态池进行分类训练的序列编码器 具有
文件列表
Quora_question_pairs_NLP_Kaggle-master.zip
(预估有个17文件)
Quora_question_pairs_NLP_Kaggle-master
quora_word_to_vec_addition
quora_question_pairs_xgboost_sklearn.ipynb
11KB
dictionary.npy
2.09MB
bag_of_words_models
xgb_met.npy
344B
logistic.npy
344B
bow_logistic_xgb.ipynb
147KB
quora_auto_encoder
decoding_mat.npy
128KB
暂无评论