类别预测信息检索最终项目(IUB 2014)问题任务1 -我们如何从给定的评论文本中预测餐厅的类别?任务2-如何根据评论的文本预测用户评论的评分?数据集Yelp数据集挑战方法任务1从信息检索中的语言模型改编而来,其中每个文档都由主题分布表示。我们使用潜在狄利克雷分配(LDA),一种主题建模,从每个类别的评论文本中找到主题分布。假设类别文档是主题的混合,文档的主题分布可以表示业务类别而不是词袋模型。余弦相似度和海灵格距离用于计算文档之间的相似度。方法任务2使用机器学习方法根据评论文本预测用户评分。基于一个特定用户为所有评论制定了特征。特征由评论中的情感组成,使用斯坦福NLP情感分析工具进行分析和推导。使用J48算法训练训练数据,然后使用测试数据评估该方法。使用RMSE、精确度、召回率和准确度等指标进行评估。