此代码是ETL项目中数据清洗的具体代码实现,实现了特定字段的数据抽取,以及把text文本转化为avro文件、转化为orc文件,为之后的导入hive表做准备