ir category prediction:预测业务类别(Yelp数据集)
类别预测信息检索最终项目(IUB 2014)问题任务1 -我们如何从给定的评论文本中预测餐厅的类别?任务2-如何根据评论的文本预测用户评论的评分?数据集Yelp数据集挑战方法任务1从信息检索中的语言模型改编而来,其中每个文档都由主题分布表示。我们使用潜在狄利克雷分配(LDA),一种主题建模,从每个类别的评论文本中找到主题分布。假设类别文档是主题的混合,文档的主题分布可以表示业务类别而不是词袋模型。余弦相似度和海灵格距离用于计算文档之间的相似度。方法任务2使用机器学习方法根据评论文本预测用户评分。基于一个特定用户为所有评论制定了特征。特征由评论中的情感组成,使用斯坦福NLP情感分析工具进行分析和推导。使用J48算法训练训练数据,然后使用测试数据评估该方法。使用RMSE、精确度、召回率和准确度等指标进行评估。
文件列表
ir-category-prediction-master.zip
(预估有个56文件)
ir-category-prediction-master
.gitignore
28B
note.txt
1KB
build_corpus.py
3KB
visualization
350_topics
t333.png
188KB
t344.png
175KB
t281.png
182KB
t75.png
210KB
暂无评论