数据处理管道:使用DockerSparkKafka和Cassandra进行实时数据处理管道和可视化 源码
数据处理管道 描述 只需5个步骤,即可使用Docker Machine和Compose,Kafka,Cassandra和Spark构建功能强大的实时数据处理管道和可视化解决方案。 参见下面的项目架构: 到底发生了什么事? 我们连接到twitter流API( ),并开始基于关键字列表侦听事件,这些事件直接转发到Kafka(不解析)。 在中间,有一个spark作业,收集这些事件,将它们转换为Spark SQL上下文( ),该上下文过滤kafka消息并仅提取感兴趣的字段,在这种情况下为: user.location,文本和user.profile_image_url ,一旦有了,我们就会使用
文件列表
data-processing-pipeline-master.zip
(预估有个32文件)
data-processing-pipeline-master
webserver
Dockerfile
486B
requirements.txt
32B
webserver.py
2KB
start.sh
127B
templates
index.html
108KB
README.md
8KB
kafka_producer
暂无评论