为什么spark比mapreduce处理数据快
落地方式不同 mapreduce任务每一次处理完成之后所产生的结果数据只能够保存在磁盘,后续有其他的job需要依赖于前面job的输出结果,这里就只能够进行大量的io操作获取得到,性能就比较低。 spark任务每一次处理的完成之后所产生的结果数据可以保存在内存中,后续有其他的job需要依赖于前面job的输出结果,这里就可以直接从内存中获取得到,大大减少磁盘io操作,性能非常高。 处理方式不同 mapreduce的任务是以进程的方式运行在yarn集群中,比如有100个MapTask要运行,这里就需要开启100个进程。 spark的任务是以线程的方式运行在worker节点的executor进程中,
暂无评论