总览 使用AWS EMR,Spark,PySpark,Zeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集 芝加哥市出租车旅行数据集 步骤1:数据整形/合并 分析原始数据 执行基本转换 重命名列 数据类型变更 添加新列 筛选行 筛选栏 执行基本数据处理并将Spark DataFrame保存为Parquet格式。 以下是所有转换后的Spark DataFrame模式。 root | -- TripID: string (nullable = true) | -- TaxiID: string (nullable = true) | -- TripStartTS: