这是一个激动人心的时刻,成千上万的企业在使用Kafka,三分之一多的世界500强公司
也在其中。Kafka是成长最快的开源项目之一,它的生态系统也在蓬勃发展。Kafka正在成为管理和处理流式数据的利器。Kafka从何而来?我们为什么要开发Kafka?Kafka到底是什么?Kafka最初是LinkedIn的一个内部基础设施系统。我们发现,虽然有很多数据库和系统可以用来存储数据,但在我们的架构里,刚好缺一个可以帮助处理持续数据流的组件。在开发 Kafka 之前,我们实验了各种现成的解决方案,从消息系统到日志聚合系统,再到ETL工具,它们都无法满足我们的需求。最后,我们决定从头开发一个系统。我们不想只是开发一个能够存储数据的系统,比如传统的关系型数据库、键值存储引擎、搜索引擎或缓存系统,我们希望能够把数据看成是持续变化和不断增长的流,并基于这样的想法构建出一个数据系统;事实上,是一个数据架构。这个想法实现后比我们最初预想的适用性更广。Kafka一开始被用在社交网络的实时应用和数据流当中,而现在已经成为下一代数据架构的基础。大型零售商正在基于持续数据流改造他们的基础业务流程,汽车公司正在从互联网汽车那里收集和处理实时数据流,银行也在重新思考基于Kafka 改造他们的基础流程和系统。那么Kafka在这当中充当了怎样的角色?它与现有的系统有什么区别?我们认为Kafka是一个流平台:在这个平台上可以发布和订阅数据流,并把它们保存起来、进行处理,这就是构建 Kafka的初衷。以这种方式来看待数据确实与人们习惯的想法有所不同,但它确实在构建应用和架构方面表现出了强大的抽象能力。Kafka经常会被拿来与现有的技术作比较:企业级消息系统、大数据系统(如Hadoop)和数据集成或ETL工具。这里的每一项比较都有一定的道理,但也有失偏颇。
暂无评论