Udacity Data Engineering Project 2:使用Redshift的云数据仓库 源码
项目:云数据仓库 音乐流初创公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 该项目旨在创建一个ETL管道,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供分析团队使用,以继续寻找用户正在收听的歌曲的见解。 样本数据 地点 S3链接用于歌曲和日志的数据集: 歌曲数据: s3://udacity-dend/song_data 日志数据: s3://udacity-dend/log_data 日志数据json路径: s3://udacity-dend/log_json_path.json 歌曲数据 每个文件都位于JSON fomart日期文件中,其中包含有关歌曲和该歌曲的歌手的元数据。 {
文件列表
Udacity-Data-Engineering-Project-2-main.zip
(预估有个7文件)
Udacity-Data-Engineering-Project-2-main
Untitled.ipynb
72B
etl.py
1007B
README.md
5KB
dwh.cfg
620B
sql_queries.py
7KB
database_schema_diagram.png
87KB
create_tables.py
834B
暂无评论