Metorikku是一个库,可简化基于ETL的编写和执行。 它基于简单的YAML配置文件,并且可以在任何Spark群集上运行。 该平台还包括一种编写单元测试和端到端测试的简单方法。 入门 要运行Metorikku,您必须首先定义2个文件。 公制文件 度量标准文件定义了ETL的步骤和查询以及在何处输出什么。 例如,简单的配置YAML(也支持JSON)应如下所示: steps : - dataFrameName : df1 sql : SELECT * FROM input_1 WHERE id > 100 - dataFrameName : df2 sq