数据量大不是问题,数据倾斜是个问题jobs数比较多的作业运行效率相对比较低,比如及时有几百行的表,如果多次关联汇总,产生十几个jobs,耗时很长,原因是mapreduce作业初始化的时间是比较长的