Spark的基本使用

sinat_50870 4 0 PDF 2021-01-15 18:01:40

启动Spark shell 打开命令行或终端——pyspark import pyspark 导入pyspark 查看spark context信息 读入文件: 打印文件内容 可利用collect()函数,它能够以数组的形式,返回RDD数据集的所有元素 lines = spark.read.text(‘file:///home/wordcound.txt’).rdd for i in lines.collect(): print(i) 处理文件: lines存储的是Row object类型 将其中的String取出,利用map api进一步转换RDD lines_map = lines.ma

用户评论
请输入评论内容
评分:
暂无评论