使用Redshift的云数据仓库 该项目的主要任务是为一家名为Sparkify的虚构公司设计一个云数据仓库,该公司是一个像Spotify / Pandora这样的音乐流媒体平台。 Sparkify已在其网站上记录了有关用户行为的数据。有关的日志数据,歌曲数据和JSON元数据。该数据位于Amazon S3存储桶中。 任务是设计一个维度数据模型和ETL管道,以使用Amazon Redshift作为数据存储来构建数据仓库,以便分析团队可以方便地处理数据。 使用的技术 数据集 日志数据集 该数据集由JSON格式的用户行为日志组成。它根据年份和月份进行分区。以下是数据集中示例json文件的路径示例。 log_data/2018/11/2018-11-12-events.json log_data/2018/11/2018-11-13-events.json 此数据是由此根据下一部分中讨论的Song