Spark生态圈简介
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。 如图 1 所示,Spark 生态圈以 Spark Core 为核心,从 HDFS、Amazon S3 和 HBase 等持久层读取数据,以 Mesos、YARN 和自身携带的
用户评论
推荐下载
-
Hadoop加Spark生态系统操作与实战指南.余辉带详细书签.pdf
本书用于Hadoop+Spark快速上手,全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。 全书共12章,大致分为3个部分,第1部
66 2019-04-07 -
Spark学习笔记Spark计算模型
一.弹性分布式数据集-RDD RDD是Spark核心数据结构,它是逻辑集的实体,在集群中多台机器之间进行数据分区,通过对多台机器上RDD分区的控制,能够减少数据的重排(data Shuffling)。
12 2021-01-10 -
Spark学习笔记三Spark DataFrame
系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾 系列博客: Spark学习笔记(一):Spark概述与运行原理 Spark学习笔记(二):RDD编程基础 Spark SQL
26 2021-01-31 -
Spark学习笔记Spark工作机制
一.Spark执行机制 1.执行机制总览 Spark应用提交后经历一系列转变,最后成为task在各个节点上执行。 RDD的Action算子触发job的提交,提交到Spark的Job生成RDD DAG,
30 2021-01-31 -
spark源码spark master.zip
spark源码:spark-master.zip。方便不能登录GitHub的小伙伴下载。如果实在需要留言,可以私下给。
12 2020-10-27 -
High Performance Spark高性能Spark
pdf原版,HighPerformanceSpark(高性能Spark)前4章,覆盖spark最新的dataframe接口。
45 2020-05-18 -
Spark权威指南Spark2
Spark权威指南(Spark2) 2018年11月出版,目前只出了英文版,中文版还没有出。
90 2019-01-10 -
spark资料spark相关提高资料
spark相关资料,提高spark技术必备
27 2019-02-24 -
Spark for Data Science spark2.0
SparkforDataScience,spark2.0
46 2019-06-22 -
spark website Apache Spark网站源码
spark-website:Apache Spark网站
18 2021-02-17
暂无评论