数据处理管道 描述 只需5个步骤,即可使用Docker Machine和Compose,Kafka,Cassandra和Spark构建功能强大的实时数据处理管道和可视化解决方案。 参见下面的项目架构: 到底发生了什么事? 我们连接到twitter流API( ),并开始基于关键字列表侦听事件,这些事件直接转发到Kafka(不解析)。 在中间,有一个spark作业,收集这些事件,将它们转换为Spark SQL上下文( ),该上下文过滤kafka消息并仅提取感兴趣的字段,在这种情况下为: user.location,文本和user.profile_image_url ,一旦有了,我们就会使用