DSC字数与地图减少实验室NYC DS 060319 源码
MapReduce的字数统计-实验 介绍 现在,我们已经了解了Spark中的键映射和reduce运算符,并且还知道何时使用转换和动作运算符,我们可以回顾一下本节前面介绍的字数统计问题。 在本实验中,我们将在Spark环境中阅读一个文本语料库,执行字数统计,并尝试基本的NLP思想以更好地掌握MapReduce的性能。 目标 在本实验中,您将: 将map(func)转换应用于不同分区中RDD的所有元素上的给定函数 对RDD的所有元素应用地图变换 比较RDD中转换和动作之间的区别 使用collect(),count()和take()操作触发火花转换 使用过滤器选择RDD中符合某些规范的数据 使用S
文件列表
dsc-word-count-with-map-reduce-lab-nyc-ds-060319-master.zip
(预估有个13文件)
dsc-word-count-with-map-reduce-lab-nyc-ds-060319-master
index.ipynb
16KB
.learn
87B
text
prideandprejudice.txt
708KB
hamlet.txt
187KB
emma.txt
906KB
senseandsensibility 2.txt
706KB
romeoandjuliet.txt
152KB
othello.txt
168KB
暂无评论