火花流推特 构建管道以使用Spark和Mongodb处理实时数据。 Twitter实时数据使用API​​提取,然后使用Apache-Spark处理。 “ tweepy” API从Twitter中提取数据,该数据存储为JSON对象。 该JSON对象包含tweet,用户详细信息,re-tweets,tweets的ip地址,地理坐标等。但是对于我们的处理,我们仅考虑实际的tweet(由用户发布或转发),以及时间戳它被创造了。 然后,此数据在MongoDb中暂存,并在运行时完成一些处理。 数据流过程:Twitter数据集是实时流数据。 我们可以使用twitter API访问流数据。 为了从Twitt