Spark生态圈简介

窃*格瓦拉 18 0 PDF 2021-01-10 12:01:30

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。 AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。如图 1 所示,Spark 生态圈以 Spark Core 为核心,从 HDFS、Amazon S3 和 HBase 等持久层读取数据,以 Mesos、YARN 和自身携带的

用户评论

暂无评论

Hadoop加Spark生态系统操作与实战指南.余辉带详细书签.pdf

本书用于Hadoop+Spark快速上手，全面解析Hadoop和Spark生态系统，通过原理解说和实例操作每一个组件，让读者能够轻松跨入大数据分析与开发的大门。全书共12章，大致分为3个部分，第1部

66 2019-04-07
Spark学习笔记Spark计算模型

一.弹性分布式数据集-RDD RDD是Spark核心数据结构,它是逻辑集的实体,在集群中多台机器之间进行数据分区,通过对多台机器上RDD分区的控制,能够减少数据的重排(data Shuffling)。

12 2021-01-10
Spark学习笔记三Spark DataFrame

系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾系列博客: Spark学习笔记(一):Spark概述与运行原理 Spark学习笔记(二):RDD编程基础 Spark SQL

26 2021-01-31
Spark学习笔记Spark工作机制

一.Spark执行机制 1.执行机制总览 Spark应用提交后经历一系列转变,最后成为task在各个节点上执行。 RDD的Action算子触发job的提交,提交到Spark的Job生成RDD DAG,

30 2021-01-31
spark源码spark master.zip

spark源码:spark-master.zip。方便不能登录GitHub的小伙伴下载。如果实在需要留言,可以私下给。

12 2020-10-27
High Performance Spark高性能Spark

pdf原版，HighPerformanceSpark（高性能Spark）前4章，覆盖spark最新的dataframe接口。

45 2020-05-18
Spark权威指南Spark2

Spark权威指南（Spark2） 2018年11月出版，目前只出了英文版，中文版还没有出。

90 2019-01-10
spark资料spark相关提高资料

spark相关资料，提高spark技术必备

27 2019-02-24
Spark for Data Science spark2.0

SparkforDataScience,spark2.0

46 2019-06-22
spark website Apache Spark网站源码

spark-website:Apache Spark网站

18 2021-02-17

Spark生态圈简介

用户评论

推荐下载