数据处理管道:使用DockerSparkKafka和Cassandra进行实时数据处理管道和可视化源码

wrapping807 23 0 ZIP 2021-03-17 04:03:43

数据处理管道描述只需5个步骤,即可使用Docker Machine和Compose,Kafka,Cassandra和Spark构建功能强大的实时数据处理管道和可视化解决方案。参见下面的项目架构: 到底发生了什么事? 我们连接到twitter流API( ),并开始基于关键字列表侦听事件,这些事件直接转发到Kafka(不解析)。在中间,有一个spark作业,收集这些事件,将它们转换为Spark SQL上下文( ),该上下文过滤kafka消息并仅提取感兴趣的字段,在这种情况下为: user.location,文本和user.profile_image_url ,一旦有了,我们就会使用

文件列表

data-processing-pipeline-master.zip (预估有个32文件)

data-processing-pipeline-master

webserver

Dockerfile 486B

requirements.txt 32B

webserver.py 2KB

start.sh 127B

templates

index.html 108KB

README.md 8KB

kafka_producer

twitter_kafka_producer.py 2KB

Dockerfile 486B

requirements.txt 19B

start.sh 136B

conf

worker

spark-defaults.conf 385B

master

spark-defaults.conf 384B

docker-compose.yml 2KB

spark-streaming-kafka-cassandra

Dockerfile 665B

build.sbt 1KB

src

test

resources

loremipsum.txt 3KB

scala

org

sevenmob

geocode

GeocodeSpec.scala 383B

main

scala

org

sevenmob

geocode

Response.scala 1KB

Formats.scala 1KB

Geocode.scala 2KB

Parameters.scala 87B

spark

streaming

RealtimeIpProcessing.scala 7KB

SampleTwitterData.scala 8KB

StreamingExamples.scala 2KB

CustomUUIDSerializer.scala 390B

Formats.scala 409B

start.sh 451B

version.sbt 40B

project

plugins.sbt 196B

build.properties 19B

images

screenshot.png 303KB

project-architecture.png 176KB

用户评论

暂无评论

雷达数据处理

ERDASLPS与TerraSolid软件相结合

57 2019-02-27
Excel数据处理

Excel数据处理与分析实战技巧精粹,有大量的例子以供分析学习使用

19 2019-03-16
LGO数据处理

LGO数据处理及坐标转换

38 2019-03-17
数据处理技术

数据处理数据技术

34 2019-03-17
数据处理包

这个包里面有大量的字符串处理函数，及一些数据的加密解密。

35 2019-03-07
数据处理平台

拿来做测试用的。暂时还不能用，等下次上传更完整的。

47 2018-12-22
海量数据处理

海量数据处理 1.应尽量避免在where子句中对字段进行null值判断，否则将导致引擎放弃使用索引而进行全表扫描;2.应尽量避免在where子句中使用!=或操作符，否则将引擎放弃使用索引而进行全表扫描

38 2019-04-17
matlab数据处理

matlab数据处理，入门基础，希望和大家一起分享

40 2019-04-06
python数据处理

python数据处理，系统介绍数据文件的python处理方法，帮助想学习机器学习数据文件处理的同学快速入门！

42 2019-04-02
Origin数据处理

origin数据处理，方便大家进行数据的处理，分析，作图

27 2019-05-15

数据处理管道:使用DockerSparkKafka和Cassandra进行实时数据处理管道和可视化 源码

文件列表

用户评论

推荐下载

数据处理管道:使用DockerSparkKafka和Cassandra进行实时数据处理管道和可视化源码