项目:云数据仓库 音乐流初创公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 该项目旨在创建一个ETL管道,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供分析团队使用,以继续寻找用户正在收听的歌曲的见解。 样本数据 地点 S3链接用于歌曲和日志的数据集: 歌曲数据: s3://udacity-dend/song_data 日志数据: s3://udacity-dend/log_data 日志数据json路径: s3://udacity-dend/log_json_path.json 歌曲数据 每个文件都位于JSON fomart日期文件中,其中包含有关歌曲和该歌曲的歌手的元数据。 {