暂无评论
学习和掌握Hadloop和Spark技术,学习大数据知识。不仅仅原理还有实战
1.Spark及其生态圈简介.pdf2.Spark编译与部署(上)--基础环境搭建.pdf2.Spark编译与部署(下)--Spark编译安装.pdf2.Spark编译与部署(中)--Hadoop编译
Spark分组函数嵌套与子查询应用示例本节将演示如何在Spark SQL中进行分组函数嵌套和子查询操作。1. 嵌套分组函数查询各部门平均工资的最大值: sql SELECT MAX(A
NASA JPL首席架构师Chris Ma2mann讲述Apache Spark与NASA JPL的关系,包括针对Spark做了什么,为什么是Spark,NASA科研与架构,以及SciSpark等。
Databricks参考应用 在Databricks,我们正在开发一组参考应用程序,以演示如何使用Apache Spark。 本书/回购包含参考应用程序。 在此处查看Github存储库中的代码: :
该文档来自于亚信大数据平台研发部经理田毅,在2014中国大数据技术大会大数据技术分论坛的演讲“Spark介绍与应用案例分析 ”。
一.弹性分布式数据集-RDD RDD是Spark核心数据结构,它是逻辑集的实体,在集群中多台机器之间进行数据分区,通过对多台机器上RDD分区的控制,能够减少数据的重排(data Shuffling)。
系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾 系列博客: Spark学习笔记(一):Spark概述与运行原理 Spark学习笔记(二):RDD编程基础 Spark SQL
一.Spark执行机制 1.执行机制总览 Spark应用提交后经历一系列转变,最后成为task在各个节点上执行。 RDD的Action算子触发job的提交,提交到Spark的Job生成RDD DAG,
spark源码:spark-master.zip。方便不能登录GitHub的小伙伴下载。如果实在需要留言,可以私下给。
暂无评论