cloud_datawarehouse_with_redshift:为一家名为Sparkify的虚构公司设计云数据仓库 源码
使用Redshift的云数据仓库 该项目的主要任务是为一家名为Sparkify的虚构公司设计一个云数据仓库,该公司是一个像Spotify / Pandora这样的音乐流媒体平台。 Sparkify已在其网站上记录了有关用户行为的数据。有关的日志数据,歌曲数据和JSON元数据。该数据位于Amazon S3存储桶中。 任务是设计一个维度数据模型和ETL管道,以使用Amazon Redshift作为数据存储来构建数据仓库,以便分析团队可以方便地处理数据。 使用的技术 数据集 日志数据集 该数据集由JSON格式的用户行为日志组成。它根据年份和月份进行分区。以下是数据集中示例json文件的路径示例。 log_data/2018/11/2018-11-12-events.json log_data/2018/11/2018-11-13-events.json 此数据是由此根据下一部分中讨论的Song
文件列表
cloud_datawarehouse_with_redshift-main.zip
(预估有个7文件)
cloud_datawarehouse_with_redshift-main
code
delete_cluster.py
867B
create_tables.py
2KB
etl.py
2KB
create_cluster.py
5KB
queries.py
7KB
.gitignore
86B
README.md
2KB
暂无评论