DataWarehouseProject:使用AWS Redshift部署到数据仓库同时执行etl管道以简化s3存储桶中的数据 源码
项目:数据仓库 介绍 音乐流初创公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 作为他们的数据工程师,您的任务是建立一个ETL管道,该管道从S3中提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。 。 通过运行Sparkify分析团队提供给您的查询并将您的结果与预期结果进行比较,您将能够测试数据库和ETL管道。 项目描述 在此项目中,您将应用在数据仓库和AWS上学到的知识,为Redshift上托管的数据库构建ETL管道。 要完成项目,您需要将数据从S3加载到Redshift上的登台表,并执行从这些登台表创建分析表SQL语句。 要求: 具有访问S3存储桶的
文件列表
DataWarehouseProject-main.zip
(预估有个5文件)
DataWarehouseProject-main
sql_queries.py
8KB
README.md
2KB
dwh.cfg
305B
etl.py
1KB
create_tables.py
1KB
暂无评论