企业级AIOps实施建议白皮书V0.6-高效运维社区联合出品.pdf,企业级AIOps实施建议白皮书V0.6-高效运维社区联合出品.pdf《企业级AOps实施建议》白皮书6.3.2瓷源优化276.3.3容量规划286.3.4性能优化28、 AlPs实施及关键技术297.1数据采集297.2数据处理307.3数据存储307.4离线和在线计算307.5亩向 AlPs的算法技术30说明31附录:案例33案例1:海量时间序列异常检测的技术方案331、案例陈述332、海量吋间序列异常检测的常见问题与解决方案333、总结31案例2:金融场景下的根源告警分析351、案例概述352、根源警分析处理流程353、根源告警分析处理方法374、总结39案例3:单机房故障自愈压缩401、案例概述402、单机房故障止损流程103、单机房故障自愈的常见问题和解决方案414、单机房故障自愈的架构43总结44copyright:⊙ GREATOPS高效运维社区《企业级AOps实施建议》白皮书背景介绍AI0ps即智能运维,其目标是,基于已有的运维数据(日忐、监控信息、应用信息等),通过杋器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低IT成木,并提高企业的产品竞争力。Gartner在2016年时便提出了AI0ps的概念,并预测到2020年,AI0ps的采用率将会达到50%。AIωυs目前在国内外领先的互联网企业开始被逐渐应用,也是近年来国內外被普遍看好的新技术。为了让国内众多互联网中小企业、特别是传统企业可以共享、复用国内外顶尖互联网的AI0ps技术和能力,并能够更快捷的进行AI0ps相关产品选型,因此廾展国内外第一个 AlPs白皮书及相关标准制定工作。AIPs标准将分成两大类,分别适用于企业内部的 AlPs能力建设与评估、及企业购置相关AIOs产品的认证评估,使得AI真正落地应用于运维,造福于企业此白皮书由高效运维社区牵头,为AOps标准工作组成员及所属企业的相关经验汇总。组织单位AI0ps白皮书及标准由云计算廾源产业联盟(英文译名: Open Source cloud alliancefor industry,缩写为: OSCAR)下没 SlOpS标准工作组、数据中心联盟(DCA)下设组织T运维委员会(即开放运维联盟)及高效运维社区联合发起制定,对外以AOps标准工作组开展工作,由萧田国担任组长。0SCAR联盟和DCA均为中国信息通信研究院牵头、国内相关仝事业单位共同发起、在中国通信标准化协会(CSA)的指导下成立的第三方非盈利组织,负责相关联盟标准及行业标准的制定和推广。中国信息通信研究院是工业和信息化部直属单位,国家高端专业智库、产业创新发展平台,支撑相关行业发展的重大战略、规划、政策、标准和测试认证等。中国通信标准化协会(英文译名为: China communications standards association,缩写为:CCSA)于2002年12月18日在北京正式成立。该协会是国内企、事业单位自愿联合组织起来,经业务主管部门批准,国家社团登记管理机关登记,开展通信技术领域标准化活动的十营利性法人社会团体。协会的主要仼务是为了更好地开展通信标准研究工作,把通信运营企业、copyright:⊙ GREATOPS高效运维社区《企业级AOps实施建议》白皮书制造企业、研究单位、大学等关心标准的企事业单位组织起来,把具有我国自主知识产权的标准推向世界,支撑我国的通信产业,为世界通信作出贞献IT运维委员会(开放运维联盟)是中国第一个也是唯一的运维行业协会。AIps标准工作组、IT运维委员会和高效运维社区的负责人均为萧田国编写成员AIυs标准工作组当前成员包括来白BAT、360、京东、华为、中国银行、平安科技、宜信企业及AI0ps解决方案提供方的A0ps领域专家发起人及发起单位萧田国高效运维社区(创始人), AlPs标准工作组(组长顾问裴丹清华大学( AIOps实验室负责人)编审成员干哲360( AIOpS负责人)许斯亮360毛茂德阿里巴巴土肇刚阿可单巴巴刘大鹏必示科技(联合创始人)曲显平百度(AI0Ds负责人)哈晶晶/百度萧出国高效运维社区(创始人)周荣华为(消费者 BG AlPs负责人)阿仕敏华为孙培华为王超京东金融孙熠青宜信(高级副总裁)张真宣信(AI0ps负责人)说明:按公司首字母序copyright:⊙ GREATOPS高效运维社区《企业级AOps实施建议》白皮书朱品燕灵犀(创始人)陈亚殊平安科技( AIOps负责人)刘洋平安科技裴丹清华大学副教授青年千人屈中泠擎创科技饶琛琳日志易郑华贵数智慧(创始人)刘栖铜腾讯IEG(A10ps负责人)觉受辉腾讯TFG涂彦腾讯IEG胡飞雄腾讯IEG岳磅腾讯IEG赵建春腾讯SNG( AIOps负责人)张戎腾讯SNG刘扬清中国银行本版本核心编写成员赵建春腾讯SNG(AOps负责人)张戎腾讯SNG周芣华为(消费者 BG AlPs负责人)孙培华为刘栖铜腾讯IEG( AlPs负责人)胡飞雄腾讯IEG曲显平百度( AlPs负责人)郑华贵数智慧(创始人)//实施及关键技术模块饶琛琳/日志易//实施及关键技术模块屈中泠擎创科技/实施及关键技术模块陶仕敏华为2012实验室(资深 AlPs专家)6copyright:⊙ GREATOPS高效运维社区《企业级AOps实施建议》白皮书copyright:⊙ GREATOPS高效运维社区《企业级AOps实施建议》白皮书1、整体介绍AlPs,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日忐、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。这种落后的生产方式,在互联网业务快速扩张、人力成本高企的时代,难以维系自动化运维因此应运而生。其基于用可被自动触发的、预定义规则的脚本,来执行常见的、重复性的运维工作,从而减少人力成本,提高运维效率。总的来说,白动化运维可以认为是一种基于行业领域知识和运维场景领域知识的专家系统。随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”的专家系统逐渐变得力不从心。自动化运维的不足,日益凸显。DevOps的出现,部分解决∫上述问题。其强调从价值交付的全局视角,端到端打通软件生命周期,建立基于微服务的单件流式的流水线。但 DevOps更强调横向融合及打通,较低阶段的 DevOps无力改变“基于认为指定规则”的既定事实AlPs是 DevOps在运维(技术运营)侧的高阶实现,两者并不冲突。此部分可具体参考《研发运营一体化能力成熟度模型》。AIωps不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。AI0ps在目动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚木去执行大脑的决策,从而达到运维系统的整体目标。AlPs基于自动化运维,将AI和运维很好的结合起来,其需要三方面的知识:1)行业领域知识:应用的行业,如互联网、金融、电信、物流、能源电力、工业制造和智慧城市等,并熟悉生产实践中的难题;2)运维场景领域知识:如指标监控、异常检测、故障发现、故障上损、成本优化、容量规划和性能优化等3)机器学习:把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网终等copyright:⊙ GREATOPS高效运维社区《企业级AOps实施建议》白皮书AlPs和 DevOps两者并不冲突,企业级 DevOps涵括包括运维在内的整个软件生命周期,AIOs是企业级 DevOps在运维(技术运营)侧的高阶实现。AlPs是运维的发展必然,是自动化运维的下一个发展阶段。 artner相关报告预测AI0ps的全球部署率将从2017年的10%增加到2020年的50%。其应用行业,除了互联网以外,还包括高性能计算、电信、金融、电力网络、物联网、医疗网络和设备、航空航天、军用设备及网络等领域本白皮书综合国内领先的互联网公司、金融企业及 AlPs解决方案提供方的相关经验,给出了一种企业级AI0ps的 AlPs理论方法和生产实践,希望能帮助贵司快速、成功实施AlPs本白皮书聚焦AI应用到Ops领域,不涉及自动化运维相关内容。9copyright:⊙ GREATOPS高效运维社区《企业级AOps实施建议》白皮书2、 AlPs目标AlPs,通俗的讲,是对规则的AI化,即将人工总结运维规则的过程变为自动学习的过程。具休而言,是对我们平时运维工作中长时间积罴形成的自动化运维和监控等能力,将其规则配置部分,进行自学习的“去规则化”改造,最终达到终极目标:“有AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。AlPs的目标是,利用大数据、机器学习和其他分析技术,通过预防预测、个性化和动态分析,直接和间接增强IT业务的相关技术能力,实现所维护产品或服务的更高质量、合理成本及高效支撑。copyright◎ GREATOPS高效运维社区