Amazon_Rating_Prediction 吴子彤,2020年11月 描述 创建一个二进制分类器,以根据评论预测亚马逊上的产品是否很棒。 令人敬畏的阈值:如果预测评分> 4.4(满分5分),则非常出色 性能 经过训练的模型在验证组(进行10倍交叉验证)上获得的F1得分为0.88,在测试组上获得的F1得分为0.86 资料大小 培训组合:921782条评论条目,33056种独特的产品 测试集:222078条评论条目,8264种独特产品 一般的做法 首先为每个评论做出多类别(1、2、3、4、5)评分预测 然后平均每个产品的评级预测 如果平均评分> 4.4,则最终将产品归类为“超赞” :glowing_star: 透视:进行多分类预测作为二元分类的中间步骤,F1的性能提高了6% 脚步 预处理数据(清除评论和摘要条目) 生成评论和摘要功能 在训练集上拟合逻辑回归模型 使用验证集验证模型性能 对测试集进行预测并输出到