项目数据仓库 项目介绍 音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 在此项目中,我们将创建一个ETL管道,该管道将从S3中提取数据,在Redshift中进行分级,并将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。 项目数据集 歌曲数据集 第一个数据集是“集中的真实数据的子。 每个文件均为JSON格式,并包含有关歌曲和该歌曲的歌手的元数据。 这些文件按每首歌曲的曲目ID的前三个字母进行分区。 样本数据: {"num_songs": 1, "artist_id": "ARJIE2Y1187B994AB7", "artist_latitude": null, "artist_lon