streamer:实时Twitter Streamer附近的人群拥挤。 管道 源码
拥挤流光 对于数据收集,Crowdbreaks利用Twitter Developer API中的流式传输终结点。 基础架构是使用Amazon Web Services(AWS)设置的。 有一个Python应用程序在AWS Fargate集群上运行,并使用(API v1.1)请求连接到相关推文的过滤流。 根据为Crowdbreaks中每个项目提供的关键字和语言过滤相关的tweet。 整个数据管道都是使用AWS设置的。 流媒体应用本身在Fargate群集上运行。 在获取这些推文之后,它将它们发送到相应的Kinesis Firehose传递流(每个项目一个),该流将每个项目的推文(带有单独的前缀)(“文件夹”)保存到Simple Cloud Storage(S3)中的存储桶中。 保存到S3的每批新推文都会触发一个事件,该事件调用Lambda函数,该函数对批处理中的推文进行预处理,进行预测并将
文件列表
streamer-master.zip
(预估有个66文件)
streamer-master
.github
workflows
push_create_lambda.yml
1KB
aws.yml
3KB
Dockerfile
379B
lambda-s3-to-es
s3_events
s3_event_1.json
1KB
s3_event_4.json
1KB
暂无评论