1. 灵活运用RDD的基本操作方法,掌握数据处理的技巧;
  2. 通过具体案例探索如何利用RDD编程解决实际问题,提升编程能力;
  3. 使用pyspark交互式编程下载并分析chapter4-data1.txt数据集,该数据集记录了某大学计算机系的成绩信息,格式如下: 学生姓名,学科,成绩
  4. 实现Spark独立应用程序,将两个输入文件A和B进行合并,并去除重复内容,生成新文件C。下面是输入文件和输出文件的示例: 输入文件A: 数据集A内容... 输入文件B: 数据集B内容... 输出文件C: 合并后的数据集C内容...
  5. 进一步拓展,编写独立应用程序解决求平均值问题,提供可扩展的数据分析方案。