DataEngineeringProject:示例端到端数据工程项目 源码
数据工程项目 数据工程项目是数据管道的实现,该管道使用RSS Feed中的最新新闻,并通过方便的API供用户使用。 管道基础结构是使用流行的开源项目构建的。 在一个地方访问最新新闻和头条新闻。 :flexed_biceps: 目录 架构图 这个怎么运作 数据搜集 Airflow DAG负责执行Python抓取模块。 它每X分钟定期运行,产生微批。 第一个任务更新proxypool 。 将代理与旋转的用户代理程序结合使用可以帮助刮板通过大多数防刮擦措施,并防止被检测为刮板。 第二项任务是从配置文件中提供的RSS feed中提取新闻,验证质量并将数据发送到Kafka主题A中。 提取过程使
文件列表
DataEngineeringProject:示例端到端数据工程项目
(预估有个108文件)
.coveragerc
168B
Dockerfile
1KB
mongo-sink.json
686B
mongo-dbz-source.json
778B
s3-minio-sink.json
1KB
elasticsearch-sink.json
885B
Dockerfile
188B
Dockerfile
208B
Dockerfile
214B
default.conf
184B
暂无评论