- 灵活运用RDD的基本操作方法,掌握数据处理的技巧;
- 通过具体案例探索如何利用RDD编程解决实际问题,提升编程能力;
- 使用pyspark交互式编程下载并分析chapter4-data1.txt数据集,该数据集记录了某大学计算机系的成绩信息,格式如下: 学生姓名,学科,成绩
- 实现Spark独立应用程序,将两个输入文件A和B进行合并,并去除重复内容,生成新文件C。下面是输入文件和输出文件的示例: 输入文件A: 数据集A内容... 输入文件B: 数据集B内容... 输出文件C: 合并后的数据集C内容...
- 进一步拓展,编写独立应用程序解决求平均值问题,提供可扩展的数据分析方案。
Spark编程基础与实践技巧.zip
文件列表
spark编程(仅供参考).zip
(预估有个15文件)
AverageScore.py
1KB
input
input_file3.txt
42B
input_file1.txt
42B
input_file2.txt
42B
chapter4-data01.txt
23KB
output
54B
A.txt
70B
output.txt
54B
C
暂无评论