初学者的大数据 有关Hadoop,Spark等的一些教程和演示,主要是Jupyter笔记本的形式。 使用MapReduce Streaming和bash创建映射器和化的MapReduce简介 一个非常基本的MapReduce单词计数示例 一个简单的MapReduce作业,带有mrjob Hadoop溢出解释 演示,用于对Hadoop集群进行基准测试 面向初学者的Docker:容器世界入门 Pyspark基本演示 使用pyspark生成ngram的基本示例 编码Spark数据框列 探索Unicode类别( ) 用numpy算出多项式回归的示例 使用Faker Python库生成假数据