Spark学习笔记—Spark计算模型

JasonGlory 18 0 PDF 2021-01-10 11:01:09

一.弹性分布式数据集-RDD RDD是Spark核心数据结构,它是逻辑集的实体,在集群中多台机器之间进行数据分区,通过对多台机器上RDD分区的控制,能够减少数据的重排(data Shuffling)。Spark通过partitionBy运算符对原始RDD进行数据再分配从而创建一个新的RDD。通过RDD之间的依赖关系形成了Spark的调度顺序。 1.RDD的几种创建方式: (1).从hadoop文件系统输入创建如HDFS,也可以是其他与hadoop兼容的持久化存储系统如Hive,Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize

用户评论

暂无评论

基于Spark的机器学习模型探索与优化.pdf

•主题模型和LDA在基于Spark的机器学习中的应用•在线LDA算法在Spark上的实现与调优•深度学习在Spark平台上的探索与优化•基于Spark的卷积神经网络实现与性能优化

4 2023-07-01
spark源码spark master.zip

spark源码:spark-master.zip。方便不能登录GitHub的小伙伴下载。如果实在需要留言,可以私下给。

12 2020-10-27
High Performance Spark高性能Spark

pdf原版，HighPerformanceSpark（高性能Spark）前4章，覆盖spark最新的dataframe接口。

45 2020-05-18
spark资料spark相关提高资料

spark相关资料，提高spark技术必备

27 2019-02-24
Spark for Data Science spark2.0

SparkforDataScience,spark2.0

46 2019-06-22
spark website Apache Spark网站源码

spark-website:Apache Spark网站

18 2021-02-17
Spark权威指南Spark2

Spark权威指南（Spark2） 2018年11月出版，目前只出了英文版，中文版还没有出。

99 2019-01-10
Spark dig and dig Dig Spark的源代码spark source code

Spark-dig-and-dig:Dig Spark的源代码

14 2021-04-23
spark rapids Spark RAPIDS插件使用GPU加速Apache Spark源码

适用于Apache Spark的RAPIDS加速器注意:有关最新的稳定确保您位于主分支上。适用于Apache Spark的RAPIDS加速器提供了一组适用于Apache Spark的插件,这些插件

32 2021-05-07
Scala与Spark的环境搭建版本匹配问题学习笔记

最新版本的scala-2.11.8与Spark2.1.0环境搭建

27 2019-05-13

Spark学习笔记—Spark计算模型

用户评论

推荐下载