随着软件日新月异的发展和微服务的深入人心,运维越来越受到人们的重视。在大量的运维数据里,最不可忽视的就是各种KPI、指标数据,它们在数学上都可以被表达为时间序列的形式。在一个大型软件系统里,往往每分钟能产生百万级的时间序列,如何从这些海量数据里发现规律,指导运维并将其智能化,成为了下一代运维中最重要的环节之一。在本次演讲中,我们将从机器学习的角度分享运维里指标的三大问题:预测、异常检测和根源分析。同时,运维系统里的每个指标并非独立存在,我们将阐述如何能从多KPI中挖掘它们的关联去更好地指导系统监控。