【Spark2运算效率】【Spark2运算效率】第四节 影响生产集群运算效率的原因之数据倾斜前言倾斜实例治理过程结语跳转 前言 当ETL调度任务所能拥有的资源能够满足其在较为资源冗余的状况下实施运算,长时间的运算过程中可能是涉及了数据倾斜的现象;数据倾斜可以说是分布式运算中不可避免的一种现象,这种现象带来的后果就是任务执行时长会随着倾斜度的增加而变长,甚至会有Fail的风险(任务重跑); 不管是任务执行延时还是任务重跑,这都在一定程度上增加了集群的运营压力,所幸的是,只要编写过程稍加注意,还是能避免很大一部分的数据倾斜事件,剩余的部分也能通过一些固定的手法进行更正解决。 倾斜实例 如图所示,在