pyspark style guide:这是一个PySpark代码样式指南根据我们遇到的PySpark存储库中最频繁出现的主题介绍了常见的情况和相关的最佳实践
PySpark样式指南 PySpark是一种包装语言,它允许用户与Apache Spark后端进行交互以快速处理数据。 Spark可以在服务器的分布式网络上的海量数据集上运行,如果正确使用,则可以提供主要的性能和可靠性优势。即使PySpark语法汲取了Spark的JVM继承,因此也实现了可能不熟悉的代码模式,即使对于有经验的Python开发人员而言,也带来了挑战。 这份自以为是的PySpark代码风格指南介绍了我们遇到的常见情况以及基于PySpark存储库中最频繁重复出现的主题的最佳实践。 除了PySpark细节外,干净代码的常规做法在PySpark存储库中也很重要-Google 是了解更多有关这些做法的强力起点。 除隐含歧义外,首选隐式列选择直接访问 # bad df = df . select ( F . lower ( df1 . colA ), F . upper ( df2 .
文件列表
pyspark-style-guide-develop.zip
(预估有个11文件)
pyspark-style-guide-develop
.policy.yml
3KB
src
checkers
chained_function_checker.py
1KB
select_cast_checker.py
1KB
__init__.py
727B
statement_call_checker.py
2KB
logic_op_complexity_checker.py
1KB
select_alias_checker.py
1KB
暂无评论