udacity data eng p3 源码
项目:数据湖(3) 数据工程纳米学位 学生:Brian Pederson 项目描述 使用虚拟启动公司Sparkify,利用在AWS上运行的Spark构建一个由一个事实和四个维度组成的维度星型架构数据模型。 编写一个基本的ETL管道,该管道使用Python和SQL从存储在AWS S3存储桶中的源json文件传输数据,然后将事实和维度作为拼写文件输出到AWS S3存储桶中。 数据源(json文件) song_data-s3:// udacity-dend / song_data log_data-s3:// udacity-dend / log_data 数据目标(实木复合地板文件) 歌曲播
文件列表
udacity-data-eng-p3-master.zip
(预估有个5文件)
udacity-data-eng-p3-master
dl.cfg
111B
etl.py
13KB
test.ipynb
92KB
etl.ipynb
153KB
README.md
4KB
暂无评论