一. 概述 Flume定义 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 Flume的优点 1). 可以和任意存储进程集成(灵活,数据源多样化) 2). 当输入的数据速率大于写入目的存储的速率时,flume会进行缓冲从而减小HDFS的压力 3). flume的事务基于channel(管道),其使用了两个事务模型(sender+receiver),确保信息被正常发送。 Flume使用两个独立的事务分别负责从sour