将数据流式传输到附近的管道中实时使用Kafka Spark:目标是能够在平台上拥有数据以运行流式数据管道。 在此我们将CSV文件的内容生成给Kafka主题使用来
使用卡夫卡火花将数据流传输到附近的管道中 #运行KafkaProject文件 我们每天都获得STM的信息,并且需要运行ETL管道来丰富数据,以便实时进行报告和分析。 数据一分为二 一组构建维度的表格(批处理样式) 为了进行分析和报告(流)而需要丰富的行程为了能够在Spark Streaming等平台上运行流分析,我们需要在Kafka等流平台上拥有记录。 使用kafka-console-producer将trips.txt文件生成到Kafka。 每行是一条消息。 将行程主题消费到您的应用程序中将从Kafka轮询的每个记录解析为一个Trip对象,为每个消息实例化一个EnrichedTrip对象
文件列表
Streaming-Data-into-pipeline-in-near--realtime-using-Kafka-Spark-master.zip
(预估有个7文件)
Streaming-Data-into-pipeline-in-near--realtime-using-Kafka-Spark-master
Route.scala
331B
KafkaProject.scala
3KB
Trip.scala
373B
build.sbt
136B
README.md
904B
Calendar.scala
390B
EnrichedTrip.scala
625B
暂无评论