Redshift_Data_Warehouse:这是来自数据工程Udacity课程的项目3 源码
项目描述 音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及其应用程序中的歌曲上具有JSON元数据的目录中。 Sparkify希望数据工程师构建执行以下操作的ETL管道: - Extracts their data from S3 - Stages them in Redshift - Transforms data into a set of dimensional tables - Continue finding insights in what songs their users are listening to. 项目数据集 这两个数据集位于S3中。 歌曲数据集 第一个数据集是“百万歌曲”数据集中的真实数据的子集。 每个文件均为JSON格式,并包含有关歌曲
文件列表
Redshift_Data_Warehouse-master.zip
(预估有个11文件)
Redshift_Data_Warehouse-master
log-data.png
118KB
Top_5_Popular_Songs.png
17KB
dwh_config_empty.cfg
891B
Top_5_locations.png
15KB
Visualization.ipynb
63KB
Songplays_per_level.png
9KB
etl.py
1KB
README.md
6KB
sql_queries.py
7KB
暂无评论