Data Warehouse with Amazon Redshift and S3:项目03 源码

hesitation_15533 5 0 ZIP 2021-03-24 02:03:08

项目描述 音乐流应用启动公司Sparkify希望通过分析和查找相关模式来利用他们从应用中收集的歌曲和用户数据。特别是,分析团队希望知道用户正在听的歌曲。但是,在当前设置中,很难理解数据。最近,该应用程序的用户基础以及歌曲数据库不断增长,并希望将其流程和数据转移到云中。到目前为止,他们的数据位于Amazon s3存储桶中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上具有JSON元数据的目录中,根本不适合进行查询。该项目的目标是创建一个ETL管道,该管道从S3提取数据,在Redshift中对其进行分级,然后将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。这是该项目的简短概述: 项目步骤: 事实和维度表的设计方案 为这些表中的每个表编写一个SQL CREATE语句,并在表创建过程开始时编写SQL DROP语句以删除表(如果已存在) 启动

用户评论
请输入评论内容
评分:
暂无评论