Data_warehouse 源码
项目数据仓库 项目介绍 音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 在此项目中,我们将创建一个ETL管道,该管道将从S3中提取数据,在Redshift中进行分级,并将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。 项目数据集 歌曲数据集 第一个数据集是“集中的真实数据的子。 每个文件均为JSON格式,并包含有关歌曲和该歌曲的歌手的元数据。 这些文件按每首歌曲的曲目ID的前三个字母进行分区。 样本数据: {"num_songs": 1, "artist_id": "ARJIE2Y1187B994AB7", "artist_latitude": null, "artist_lon
文件列表
Data_warehouse-master.zip
(预估有个7文件)
Data_warehouse-master
.DS_Store
6KB
etl.py
691B
README.md
3KB
__pycache__
sql_queries.cpython-36.pyc
5KB
dwh.cfg
354B
sql_queries.py
5KB
create_tables.py
671B
暂无评论