Python学习笔记——大数据之SPARK核心
本文来自于csdn,文章讲解RDD的特点,RDD操作函数相关,穿插案例辣酱得段子,带大家理解MapReduce,通过哈姆雷特单词分析案例进行深度剖析。RDD(ResilientDistributedDatasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中),RDD混合了各种计算模型,使得Spark可以应用于各种大数据处理场景当然,RDD肯定不会这么简单,它的功能还包括容错、集合内的数据可以并行处理等。RDD可以cache到内存中,每次对RDD数据集的操作之后的
用户评论
推荐下载
-
大数据技术原理学习笔记.docx
该知识来源于MOOC林子雨老师的《大数据技术原理》,该笔记编写了大数据的发展、为什么需要大数据、大数据有什么用、大数据采用哪些组件等技术原理与知识,对于相关从业者、大学生,是一个梳理自身对大数据的理解
9 2020-11-08 -
阿里云大数据ACA学习笔记.docx
本文档是阿里云大数据ACA认证的学习笔记,基本上是理论知识,掌握了ACA考试就能过了,同时还有一些实践操作自己可以酌情学习(想拿高分)
26 2020-05-13 -
大数据hadoop环境搭建学习笔记01
Big data hadoop environment to build study notes 01
29 2019-06-27 -
阿里云大数据专业认证学习笔记
阿里云大数据专业认证学习笔记大数据计算服务考试内容讲解及笔记
68 2019-05-02 -
大数据Apache Spark SemiStructured data
大数据--ApacheSparkSemi-Structureddata
32 2019-09-18 -
Spark快速大数据分析
HoldenKarau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。AndyKonwinski是Databricks联合创始人,ApacheSpark项目
11 2019-09-18 -
spark大数据分析实战
spark大数据分析实战完整版一起走进大数据的世界。
31 2020-02-14 -
spark快速大数据分析
高清非扫描版,十分实用
16 2019-09-06 -
Spark大数据分析平台
Spark大数据分析平台
15 2020-08-20 -
大数据spark相关包.rar
由于kafka,spark下载国外网速过慢,提供下载好的版本匹配的大数据相关包 包括kafka_2.11-0.11.0.0/spark-2.4.5
4 2020-07-17
暂无评论