spark streaming twitter:构建管道以使用Spark和Mongodb处理实时数据源码

atop6954 28 0 ZIP 2021-02-22 00:02:36

火花流推特构建管道以使用Spark和Mongodb处理实时数据。 Twitter实时数据使用API提取,然后使用Apache-Spark处理。 “ tweepy” API从Twitter中提取数据,该数据存储为JSON对象。该JSON对象包含tweet,用户详细信息,re-tweets,tweets的ip地址,地理坐标等。但是对于我们的处理,我们仅考虑实际的tweet(由用户发布或转发),以及时间戳它被创造了。然后,此数据在MongoDb中暂存,并在运行时完成一些处理。数据流过程:Twitter数据集是实时流数据。我们可以使用twitter API访问流数据。为了从Twitt

文件列表

spark-streaming-twitter-master.zip (预估有个10文件)

spark-streaming-twitter-master

sparkStreamingMongodb.ipynb 21KB

README.md 7KB

spark-postgresql 523B

tweetRead.ipynb 3KB

howToRun.txt 370B

sparkMongo.py 618B

batchProcessing.ipynb 142KB

workflow.PNG 37KB

spark.ipynb 18KB

spark-parquet.py 359B

用户评论

暂无评论

Spark利用Apache Spark操纵数据源码

火花利用Apache Spark操纵数据娱乐:克隆此存储库并运行单个应用程序驱动程序

14 2021-02-22
spark streaming kafka08_2.112.4.0.jar

spark-streaming-kafka-0-8_2.11-2.4.0.jar

21 2021-01-22
spark streaming kafka010_2.123.0.0.jar

spark3.0.0版本对接kafka数据源需要的jar包,最新的版本导致maven的阿里云仓库不能直接下载下来,所以需要手动导入jar包进行操作,有需要的朋友可以免费下载

24 2020-08-15
kafka加spark streaming开发文档

kafka与streaming配置与开发文档001.kafka版本为kafka_2.10-0.8.2.0spark版本为1.3.0

24 2019-09-22
spark_streaming_kafka210_160jar

KafkaUtils所依赖的jar包，导入文件中KafkaUtils报错，需要导入spark-streaming-kafka_2.10-1.6.0.jar包

47 2019-01-10
spark streaming大型电商项目实战

sparkstreaming大型电商项目实战，包括架构，遇到的问题及解决方案

29 2020-05-06
spark streaming在阿里的应用实践

sparkstreaming在阿里巴巴的应用实践，讲解了spark在实际项目中的运用。

25 2019-06-01
spark_streaming_kafka_2.10_1.6.2.jar

Java连接包

22 2019-04-04
Apress.Pro.Spark.Streaming.The.Zen.of.RealTime.A

Apress.Pro.Spark.Streaming.The.Zen.of.Real-Time.A

21 2019-09-26
深入解析Spark Streaming与Kafka集成

对于大数据处理中的实时数据流，Spark Streaming与Kafka的集成极为重要。Spark Streaming作为实时处理框架，结合Kafka的高吞吐量和可靠性，实现了大规模数据的实时处理和分

87 2023-12-19

spark streaming twitter:构建管道以使用Spark和Mongodb处理实时数据 源码

文件列表

用户评论

推荐下载

spark streaming twitter:构建管道以使用Spark和Mongodb处理实时数据源码