Splunk是一个分布式的机器数据平台,提供一体化的数据收集,存储,搜索,查询,展示的平台。Splunk的传统的Forwarder架构很难扩展和管理,而且是单点故障,成为整个系统的瓶颈。本次演讲,讨论了如何利用Spark,实现一个高可用,高扩展的分布式任务调度系统,并用于海量数据的采集,以取代传统Splunk平台中的Forwarder的架构