大型集群上的快速和通用数据处理架构过去的几年中,计算系统经历着重大的变革,为了满足不断增长的数据量和处理速度需求,越来越多的应用向分布式系统扩展。如今,从互联网到企业运作,再到科技设备,不尽其数的数据源都在产生大量的、有价值的数据流。然而,单一的机器处理能力并没有跟上数据增长的速度,使得这些有价值的数据越来越难以被使用。以至于越来越多的组织——不仅仅是互联网公司,还有一些传统企业和研究室——迫切需要将他们重要的计算能力扩展到成百上千台机器上去。