启动Spark shell 打开命令行或终端——pyspark import pyspark 导入pyspark 查看spark context信息 读入文件: 打印文件内容 可利用collect()函数,它能够以数组的形式,返回RDD数据集的所有元素 lines = spark.read.text(‘file:///home/wordcound.txt’).rdd for i in lines.collect(): print(i) 处理文件: lines存储的是Row object类型 将其中的String取出,利用map api进一步转换RDD lines_map = lines.ma