随着这些年大数据的飞速发展,也出现了不少计算的框架(Hadoop、Storm、Spark、Flink)。在网上有人将大数据计算引擎的发展分为四个阶段。第一代:Hadoop承载的MapReduce第二代:支持DAG(有向无环图)框架的计算引擎Tez和Oozie,主要还是批处理任务第三代:支持Job内部的DAG(有向无环图),以Spark为代表第四代:大数据统一计算引擎,包括流处理、批处理、AI、MachineLearning、图计算等,以Flink为代表或许会有人不同意以上的分类,我觉得其实这并不重要的,重要的是体会各个框架的差异,以及更适合的场景。并进行理解,没有哪一个框架可以完美的支持所有的