如今,分布式系统已经成为云计算时代的一个基本概念。大型IT公司如Google、百度、淘宝、亚马逊、twitter等,无不背后支撑着庞大的分布式计算平台。即使是一个简单的微信公众号应用的后端,也采用了分布式架构,尽管只有几台机器而已。分布式系统的优点在于其弹性,面对不断变化的需求能够自如地伸缩。然而,分布式系统同时也给开发人员和运维人员带来了一些难题,如何监控和优化分布式系统的行为就是其中之一。以Google为例,当用户通过浏览器发起一个搜索请求时,Google后端可能会调动数百台甚至上千台机器,运行数十种编程语言实现的几百个甚至上百个应用服务,以计算请求的返回结果。如果此过程中出现问题或者漏洞,查找和定位就会变得非常困难。正因如此,分布式系统跟踪系统应运而生。Google于2010年发表了一篇著名论文《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》(中文版名称《Dapper,一种大规模分布式系统追踪基础设施》)。Dapper是Google内部使用的一个分布式系统跟踪基础设施,与之前的一些追踪系统相比,Dapper具有低消耗、对应用透明和良好扩展性等优点。