项目描述 音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及其应用程序中的歌曲上具有JSON元数据的目录中。 Sparkify希望数据工程师构建执行以下操作的ETL管道: - Extracts their data from S3 - Stages them in Redshift - Transforms data into a set of dimensional tables - Continue finding insights in what songs their users are listening to. 项目数据集 这两个数据集位于S3中。 歌曲数据集 第一个数据集是“百万歌曲”数据集中的真实数据的子集。 每个文件均为JSON格式,并包含有关歌曲