前言 本来将数据导入到hive,但是不知道什么原因太慢了,一小时200条数据,优化一波kettle,还是成效不大,因此改为借用hadoop file output 到hdfs,然后再load 到hive表里 一,正文 1.在转换里拖入big data/hadoop file output 新建hadoop cluster连接 从集群里下载core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml 覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-co