目的 在Yelp数据集上运行spark作业,结果是: 预测用户评分的情感分析模型 根据评论数量调整评分的每个业务的加权评分即5星级的5星级餐厅与1k的4星级餐厅 设计:Spark作业从AWS EMR集群运行,并通过Apache Airflow进行编排。 这意味着Spark作业是端到端自动化的。 该项目基于此帖子中建议的体系结构。 先决条件 安装 安装 S3和EMR的AWS账户凭证 将Yelp移动到S3 创建文件dags/aws_credentials.json并更新登录名和密码 { " login " : " " , " password " : " " } 要运行Airflow作业,请转到 EMR学习课程 使用s3-dist-cp ,--src arg必须是目录。 如果只想移动特定文件,则可以添加一个额