PySpark样式指南 PySpark是一种包装语言,它允许用户与Apache Spark后端进行交互以快速处理数据。 Spark可以在服务器的分布式网络上的海量数据集上运行,如果正确使用,则可以提供主要的性能和可靠性优势。即使PySpark语法汲取了Spark的JVM继承,因此也实现了可能不熟悉的代码模式,即使对于有经验的Python开发人员而言,也带来了挑战。 这份自以为是的PySpark代码风格指南介绍了我们遇到的常见情况以及基于PySpark存储库中最频繁重复出现的主题的最佳实践。 除了PySpark细节外,干净代码的常规做法在PySpark存储库中也很重要-Google 是了解更多有关这些做法的强力起点。 除隐含歧义外,首选隐式列选择直接访问 # bad df = df . select ( F . lower ( df1 . colA ), F . upper ( df2 .