Streaming Pipeline using Dataflow 源码
使用DataFlow进行流传输管道(正在建设中) 这是使用Python存储库的Apache Beam简介的一部分。 在这里,我们将尝试学习Apache Beam的基础知识来创建Streaming管道。 我们将逐步学习如何使用创建流式传输管道。 完整的过程分为5个部分: 从Pub Sub读取数据 解析数据 过滤数据 执行类型转换 数据争吵 删除不需要的列 在Bigquery中插入数据 动机 在过去的两年中,我一直处于良好的学习曲线中,在此过程中,我提高了自己的技能,进入了机器学习和云计算领域。 这个项目是我所有学习的实践项目。 这是未来的第一件事。 使用的库/框架 内置 克隆库 # clone this repo: git clone https://github.com/adityasolanki205/Streaming-Pipeline-using-DataFlow
文件列表
Streaming-Pipeline-using-Dataflow-master.zip
(预估有个39文件)
Streaming-Pipeline-using-Dataflow-master
generating_data.py
4KB
publish_to_pubsub.py
776B
publish_to_pubsub.ipynb
2KB
data
german-original.data
78KB
german.data
78KB
.ipynb_checkpoints
german-checkpoint.data
78KB
Book1.xlsx
100KB
暂无评论