goodreads_etl_pipeline:用于构建数据湖数据仓库和分析平台的端到端GoodReads数据管道源码

local86608 13 0 ZIP 2021-04-03 00:04:21

GoodReads数据管道建筑学管道包括各种模块: ETL职位 Redshift仓库模块分析模块概述使用Goodreads Python包装器从Goodreads API实时捕获数据(查看用法 )。从Goodreads API收集的数据存储在本地磁盘上,并及时移至AWS S3上的Landing Bucket。 ETL作业以火花形式编写,并按气流计划以每10分钟运行一次。 ETL流程从API收集的数据将移至着陆区s3存储桶。 ETL作业具有s3模块,该模块将数据从着陆区复制到工作区。数据移至工作区后,将触发火花作业,该火花作业将从工作区读取数据并进行转换。数据集已重新分区并移至“已处理区域”。 ETL作业的仓库模块从已处理区域中拾取数据并将其分段到Redshift临时表中。使用Redshift暂存表并在Data Warehouse表上执行UPSERT操作以更新数据集。

文件列表

goodreads_etl_pipeline-master.zip (预估有个45文件)

goodreads_etl_pipeline-master

Utility

bootstrap_script.txt 592B

src

logging.ini 439B

goodreads_driver.py 3KB

warehouse

goodreads_warehouse_driver.py 2KB

goodreads_upsert.py 2KB

__init__.py 0B

README.md 643B

goodreads_staging_queries.py 4KB

goodreads_warehouse_queries.py 3KB

__init__.py 0B

README.md 339B

s3_module.py 3KB

goodreads_udf.py 634B

goodreads.log 1B

goodreads_transform.py 6KB

LICENSE 1KB

README.md 7KB

SampleData

author.csv 202KB

book.csv 1.79MB

reviews.csv 593KB

user.csv 505KB

docs

images

DatasetCount.PNG 11KB

DAG.PNG 44KB

architecture.png 291KB

goodreads_dag.PNG 30KB

DAG_tree_view.PNG 36KB

Airflow_Redshift.PNG 21KB

sourcefiles.PNG 50KB

Airflow_EMR_ssh.PNG 28KB

WarehouseCount.PNG 33KB

goodreads.png 516KB

DAG_Gantt.PNG 19KB

Images.docx 148KB

Airflow_Connections.md 479B

goodreadsfaker

generate_fake_data.py 10KB

__init__.py 0B

airflow

plugins

operators

__init__.py 188B

goodreads_analytics.py 836B

data_quality.py 1KB

__init__.py 282B

helpers

__init__.py 93B

analytics_queries.py 7KB

dags

goodreads_etl_dag.py 5KB

__init__.py 0B

.gitignore 145B

用户评论

暂无评论

数据仓库项目需求分析

还在四处寻找有关于数据仓库项目需求分析吗?整理发布的这一款数据仓库项目需求分析定能给你需...该文档为数据仓库项目需求分析,是一份很不错的参考资料,具有较高参考价值,感兴趣的可以下载看看

23 2021-05-07
Oracle8数据仓库分析构建实用指南

介绍了数据仓库的基本概念、基本原理和基本结构；深入研究了数据库的工程管理；基于Oracle8技术着重讲座了数据仓库的逻辑设计、物理设计、聚居数据、分区、备份与恢复、安全、性能估化及对其实现提供支持的R

26 2019-09-26
罗斯文数据仓库著名的罗斯文数据库的数据仓库源码

关于著名的Northwind OLTP数据库的数据仓库。使用Apache Airflow和PostgreSQL构建。本地设置首先,您需要在计算机上安装。在开始之前,您还将需要安装Docke

23 2021-05-10
数据仓库数据挖掘和OLAP分析及其应用实例

数据仓库、数据挖掘和OLAP分析及其应用实例

35 2019-06-01
DataWarehouseProject使用AWS Redshift部署到数据仓库同时执行etl管道以简化s3存储桶中的数据源码

项目:数据仓库介绍音乐流初创公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程

5 2021-04-04
maestro用于构建健壮ETL作业的类型化数据管道框架.zip

maestro, 用于构建健壮ETL作业的类型化数据管道框架大师 maestro: a distinguished conductormaestro 库为ETL类型的数据编组和编制提供了一种通用的框

9 2020-08-13
数据仓库后台管理平台介绍

Data warehouse background management platform introduction

22 2019-06-21
数据仓库平台技术介绍.doc

Sinopec DW Proposal(v1.0) 附录B 数据仓库平台技术介绍

24 2018-12-27
Goodreads Book Datasets With User Rating10M数据集

我们每个人都知道Goodreads,每个想读书的书迷,首先要在该网站上搜索该书的书名,然后阅读该书的所有评论和评级。这些数据集非常适合两项工作:建立基于1000万本书的图书推荐系统,将描述列用于NLP

20 2021-04-06
model_goodreads在这个项目中我使用peewee在Python中为goodreads网站数据库建模源码

model_goodreads 在这个项目中,我使用peewee在Python中为goodreads网站数据库建模

8 2021-04-03

goodreads_etl_pipeline:用于构建数据湖数据仓库和分析平台的端到端GoodReads数据管道 源码

文件列表

用户评论

推荐下载

goodreads_etl_pipeline:用于构建数据湖数据仓库和分析平台的端到端GoodReads数据管道源码