Spark源码系列(二)RDD详解

zhuangwujian 13 0 PDF 2021-02-01 10:02:17

上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是ResilientDistributedDataset,意思是容错的分布式数据集,每一个RDD都会有5个特征:1、有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。2、有一个函数计算每一个分片,这里指的是下面会提到的compute函数。3、对其他的RDD的依赖列表,依赖还具体分为宽依赖和窄依赖,但并不是所有的RDD都有依赖。4、可选:key-value型的RDD是根据哈希来分区的,类似于mapreduce当中

用户评论

暂无评论

gallia spark源码

请参阅Spark 上的原始公告。有关更多信息,请参见gallia-core ,尤其是Spark RDDs。接触您可以通过以下方式与作者联系:

1 2021-04-19
feast spark源码

盛宴火花包含星火摄取工作盛宴服务 Feast Python SDK Spark扩展用法: import feast_spark import feast client = feast . Cl

10 2021-04-24
spark rapids Spark RAPIDS插件使用GPU加速Apache Spark源码

适用于Apache Spark的RAPIDS加速器注意:有关最新的稳定确保您位于主分支上。适用于Apache Spark的RAPIDS加速器提供了一组适用于Apache Spark的插件,这些插件

32 2021-05-07
Spark入门实战系列9.Spark图计算GraphX介绍及实例

SparkGraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,社交网络中人与人之间有很多关系链,例如Tw

17 2021-02-01
spark之Standalone模式部署配置详解

主要介绍了spark之Standalone模式部署配置详解,小编觉得挺不错的,这里分享给大家,供各位参考。

15 2020-08-31
Spark应用程序WebUI详解.docx

这是Spark关于WEBUI的详细讲解，对SparkWEBUI可以有一定的认识。

22 2019-09-20
Spark性能相关参数配置详解1

Spark性能相关参数配置详解

22 2019-05-22
Spark SQL 语句触发器详解

Spark SQL 语句触发器21.1 Before 语句触发器Before 语句触发器在特定操作（例如插入、更新或删除）执行之前触发。示例：以下示例演示如何创建一个 Before 触发器，用

5 2024-07-07
spark sorted Spark的二级排序和流减少.zip

spark-sorted, Spark的二级排序和流减少已经排序排序是一个图书馆,目的是在非常大的组中对非常大的组进行非减少操作,包括支持。要实现这个目标,它依赖于基于spark排序的new,并在

11 2020-08-09
SparkSQL源码分析之PhysicalPlan到RDD的具体实现

接上一篇文章SparkSQLCatalyst源码分析之Physical Plan,本文将介绍PhysicalPlan的toRDD的具体实现细节:我们都知道一段sql,真正的执行是当你调用它的colle

4 2021-02-01

Spark源码系列(二)RDD详解

用户评论

推荐下载