spark streaming twitter:构建管道以使用Spark和Mongodb处理实时数据 源码

atop6954 28 0 ZIP 2021-02-22 00:02:36

火花流推特 构建管道以使用Spark和Mongodb处理实时数据。 Twitter实时数据使用API​​提取,然后使用Apache-Spark处理。 “ tweepy” API从Twitter中提取数据,该数据存储为JSON对象。 该JSON对象包含tweet,用户详细信息,re-tweets,tweets的ip地址,地理坐标等。但是对于我们的处理,我们仅考虑实际的tweet(由用户发布或转发),以及时间戳它被创造了。 然后,此数据在MongoDb中暂存,并在运行时完成一些处理。 数据流过程:Twitter数据集是实时流数据。 我们可以使用twitter API访问流数据。 为了从Twitt

用户评论
请输入评论内容
评分:
暂无评论