udacity data eng p2 源码
项目:数据仓库(2) 数据工程纳米学位 学生:Brian Pederson 项目描述 使用虚拟启动公司Sparkify,使用由一个事实和四个维度组成的AWS Redshift构建一个维度星型架构数据模型。 编写一个基本的ETL管道,该管道使用Python和SQL从存储在AWS S3存储桶中的源json文件传输数据。 数据源(json文件) song_data-s3:// udacity-dend / song_data log_data-s3:// udacity-dend / log_data 数据目标(数据仓库表) 歌曲播放-代表与歌曲播放相关的事件的事实表 users-表示Sparkify服务用户的维度表 time-维度表,其中包含与歌曲播放事件相关的时间戳 歌曲-包含参考歌曲的维度表 artist-包含引用艺术家的尺寸表 注意:所有四个维度表都相对较小,因此DISTSTYLE
文件列表
udacity-data-eng-p2-master.zip
(预估有个10文件)
udacity-data-eng-p2-master
README.md
4KB
dwh.cfg
757B
etl.ipynb
73KB
provisioning.ipynb
25KB
etl.py
4KB
sql_queries.py
9KB
sql_queries_nofk.py
9KB
test.ipynb
79KB
log_json_path.json
456B
暂无评论