要求/问题   通过系统传输Rackspace用户的邮件产生了相当大的“文件”路径信息,它们以各种格式的日志文件的形式存放,每天大约有150 GB。聚集这些数据对系统发展规划以及了解用户如何使用我们的系统是非常有帮助的,并且,这些记录对系统故障排查也有好处。   假如一封邮件发送失败或用户无法登陆系统,这时非常重要的事是让我们的客服能找到足够的问题相关信息开始调试。为了能够快速发现这些信息,我们不能把日志文件放在产生它们的机器上或以其原始格式存放。相反,我们使用Hadoop来做大量的日志处理工作,而其结果被Lucene索引之后用来支持客服的查询需求。   日志   数量级最大的两种日志格式是由