py hadoop tutorial:一起使用Python和Hadoop源材料 Source material
py-hadoop教程 一起使用Python和Hadoop源材料。 依存关系 这是一个使用Ibis和PySpark与Hadoop中存储的数据(特别是HDFS和Impala Table中的文件)进行交互的教程。 您将需要访问Hadoop集群(或VM / Docker映像),具有python解释器(安装了requirements.txt中列出的软件包)以及spark 1.6.1 数据 我们将使用已更正的每小时Wikipedia页面浏览统计信息: 。 可以在[关于数据集的Wikitech Wiki页面上]找到有关数据源的更多文档。( ) 要在本地下载数据,请运行 mkdir pageviews-gz python grab_data.py 从该目录的根目录开始。 然后创建所需的表,
文件列表
py-hadoop-tutorial-master.zip
(预估有个14文件)
py-hadoop-tutorial-master
grab_data_locally.py
4KB
img
search-interface.png
68KB
pgvw2.png
40KB
pgvw3.png
79KB
trending-on-wikitrends.png
118KB
stackoverflow.png
254KB
pgvw1.png
21KB
LICENSE
11KB
暂无评论