py-hadoop教程 一起使用Python和Hadoop源材料。 依存关系 这是一个使用Ibis和PySpark与Hadoop中存储的数据(特别是HDFS和Impala Table中的文件)进行交互的教程。 您将需要访问Hadoop集群(或VM / Docker映像),具有python解释器(安装了requirements.txt中列出的软件包)以及spark 1.6.1 数据 我们将使用已更正的每小时Wikipedia页面浏览统计信息: 。 可以在[关于数据集的Wikitech Wiki页面上]找到有关数据源的更多文档。( ) 要在本地下载数据,请运行 mkdir pageviews-gz python grab_data.py 从该目录的根目录开始。 然后创建所需的表,