Spark学习笔记—Spark计算模型
一.弹性分布式数据集-RDD RDD是Spark核心数据结构,它是逻辑集的实体,在集群中多台机器之间进行数据分区,通过对多台机器上RDD分区的控制,能够减少数据的重排(data Shuffling)。Spark通过partitionBy运算符对原始RDD进行数据再分配从而创建一个新的RDD。通过RDD之间的依赖关系形成了Spark的调度顺序。 1.RDD的几种创建方式: (1).从hadoop文件系统输入创建如HDFS,也可以是其他与hadoop兼容的持久化存储系统如Hive,Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize
用户评论
推荐下载
-
基于Spark的机器学习模型探索与优化.pdf
•主题模型和LDA在基于Spark的机器学习中的应用•在线LDA算法在Spark上的实现与调优•深度学习在Spark平台上的探索与优化•基于Spark的卷积神经网络实现与性能优化
4 2023-07-01 -
spark源码spark master.zip
spark源码:spark-master.zip。方便不能登录GitHub的小伙伴下载。如果实在需要留言,可以私下给。
12 2020-10-27 -
High Performance Spark高性能Spark
pdf原版,HighPerformanceSpark(高性能Spark)前4章,覆盖spark最新的dataframe接口。
45 2020-05-18 -
spark资料spark相关提高资料
spark相关资料,提高spark技术必备
27 2019-02-24 -
Spark for Data Science spark2.0
SparkforDataScience,spark2.0
46 2019-06-22 -
spark website Apache Spark网站源码
spark-website:Apache Spark网站
18 2021-02-17 -
Spark权威指南Spark2
Spark权威指南(Spark2) 2018年11月出版,目前只出了英文版,中文版还没有出。
99 2019-01-10 -
Spark dig and dig Dig Spark的源代码spark source code
Spark-dig-and-dig:Dig Spark的源代码
14 2021-04-23 -
spark rapids Spark RAPIDS插件使用GPU加速Apache Spark源码
适用于Apache Spark的RAPIDS加速器 注意:有关最新的稳定确保您位于主分支上。 适用于Apache Spark的RAPIDS加速器提供了一组适用于Apache Spark的插件,这些插件
32 2021-05-07 -
Scala与Spark的环境搭建版本匹配问题学习笔记
最新版本的scala-2.11.8与Spark2.1.0环境搭建
27 2019-05-13
暂无评论