Spark入门(Python版)

wsyqn83586 24 0 PDF 2021-02-07 00:02:39

Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(BigData)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布式存储框架(Google文件系统),在Hadoop中被实现为HDFS;一个分布式计算框架(MapReduce)。这两个观点成为过去十年规模分析(scalinganalytics)、大规模机器学习(machinelearning),以及其他大数据应用出现的主要推动力!但是,从

用户评论
请输入评论内容
评分:
暂无评论