spark streaming twitter:构建管道以使用Spark和Mongodb处理实时数据 源码
火花流推特 构建管道以使用Spark和Mongodb处理实时数据。 Twitter实时数据使用API提取,然后使用Apache-Spark处理。 “ tweepy” API从Twitter中提取数据,该数据存储为JSON对象。 该JSON对象包含tweet,用户详细信息,re-tweets,tweets的ip地址,地理坐标等。但是对于我们的处理,我们仅考虑实际的tweet(由用户发布或转发),以及时间戳它被创造了。 然后,此数据在MongoDb中暂存,并在运行时完成一些处理。 数据流过程:Twitter数据集是实时流数据。 我们可以使用twitter API访问流数据。 为了从Twitt
文件列表
spark-streaming-twitter-master.zip
(预估有个10文件)
spark-streaming-twitter-master
sparkStreamingMongodb.ipynb
21KB
README.md
7KB
spark-postgresql
523B
tweetRead.ipynb
3KB
howToRun.txt
370B
sparkMongo.py
618B
batchProcessing.ipynb
142KB
workflow.PNG
37KB
spark.ipynb
18KB
暂无评论