yelp spark airflow:使用PySpark和Airflow进行Yelp数据集情感分析和加权评论分数 源码
目的 在Yelp数据集上运行spark作业,结果是: 预测用户评分的情感分析模型 根据评论数量调整评分的每个业务的加权评分即5星级的5星级餐厅与1k的4星级餐厅 设计:Spark作业从AWS EMR集群运行,并通过Apache Airflow进行编排。 这意味着Spark作业是端到端自动化的。 该项目基于此帖子中建议的体系结构。 先决条件 安装 安装 S3和EMR的AWS账户凭证 将Yelp移动到S3 创建文件dags/aws_credentials.json并更新登录名和密码 { " login " : " " , " password " : " " } 要运行Airflow作业,请转到 EMR学习课程 使用s3-dist-cp ,--src arg必须是目录。 如果只想移动特定文件,则可以添加一个额
文件列表
yelp-spark-airflow-master.zip
(预估有个7文件)
yelp-spark-airflow-master
config
airflow.cfg
34KB
dags
spark_submit.py
7KB
scripts
yelp_script.py
6KB
docker-compose.yml
904B
.gitignore
41B
README.md
2KB
暂无评论