数据方面的工作样本,PySpark变体 环境设定 如果您已经具有运行正常的Apache Spark配置,则可以使用自己的配置。 为了您的方便,提供docker-compose.yml基于映像。 您将需要在计算机上配置Docker和Docker Compose。 查看以获取详细信息。 您可以运行docker-compose up并按照提示打开Jupyter Notebook UI(看起来像http://127.0.0.1:8888/?token= )。 给定的data/目录作为Docker卷安装在~/data/以方便访问: import os from pyspark . sql import SparkSession spark = SparkSession . builder . master ( 'local' ). getOrCreate () df =