当前位置:首页 > 运维干货

IT运维智能时代——智能化运维

e8yw

  最近一两年,AI人工智能成为业界的研究热点。运维人也开始着手研究如何将AI与运维相结合,让机器实现真正自我管理。

  目前,业界对智能化运维(AIOps)有着两种不同的解读,其实我认为无论AIOps是指基于算法(Algorithmic IT Operations)的IT运维还是基于人工智能(ArtificialIntelligencefor IT Operations)的IT运维,两者的本质并没有实质的差距,都是围绕海量的运维数据通过大数据、现代机器学习及更多高级数据分析技术,提供具备主动性、人性化及动态管理的能力,使运维工作一定程度上摆脱对人经验和知识的依赖。

  目前常见的应用场景包括:

  异常告警:根据历史监控指标数据,运用基于时序的相关算法对监控指标异常分析,并对出现异常的监控指标发出精准告警。

  告警收敛:根据历史事件和告警数据,发现这些事件和告警之间的关系,整合频繁一起出现的事件和告警,并将其认看作同一类故障的告警,从而把多个告警和指标合并,推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。

  故障分析:通过运维数据及事件、告警,结合以前发现问题的经验知识库和模型,建立故障树分析,结合决策树等相关算法,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易。

  趋势预测:进行历史数据拟合等算法,进行资源趋势/容量预测。例如,主机CPU,交换页不足、内存不足、存储不足会逐渐导致系统故障或应用故障,该系统建立关联模型,提醒用户可能后继会发生系统故障或应用故障。在故障产生真正业务影响前,告知运维人员事先解决问题。

  故障画像:通过采集多维度运维数据,构建多元结构化底层运维数据模型,配合各类运维场景,并在场景里对故障进行画像,通过各种故障画像标准形式来辅助企业进行IT运维决策和处理过程。

  总体来说,我认为AIOps是自动化运维及基于数据分析的运维的进一步延伸。利用自动化运维阶段积累的大量运维数据,基于运维数据分析和自动化运维时打下的基础的各种运维场景和应用,结合各种人工智能技术,提供更为便捷运维操作和分析。

  运维近几年才逐步跨入智能时代,它的目前的应用场景集中于异常告警、告警收敛、故障分析、趋势预测以及故障画像等一些比较基础的方面,但是它体现了运维工具平台未来的主要发展趋势。有理由相信,随着AI技术的不同发展及运维人的不断努力,AIOps将会逐步完善并实现更多的应用场景,未来实现无人值守的IT运维系统或将不只是一个空想。

  五、企业IT运维平台的规划

  最近一次讨论中,有个朋友问了一个问题:“我们企业IT运维里面碰到了很多问题,是否可以跳过自动化这个阶段,直接实施AIOps智能运维这个阶段呢?”

  对于这个问题,我的观点是否定的。原因主要来自于两个方面:

  一方面,正如《IT运维发展趋势及运维人的转型升级》一文中提到的例子:经济基础决定上层建筑。

  我个人认为:IT运维平台或工具总是必须与企业IT技术架构及运维体系阶段相匹配。IT运维平台落后于整个技术架构和运维体系,会产生很多问题,例如,运维人力资源的不足、各种问题反复出现得不到根治等等。IT运维平台要是过于超前,也会出现用不起、不必要的投资浪费,甚至出现更多反效果。

  如果是一些IT信息化程度还不高,并且IT环境规模也不大的企业,它的IT运维平台可以考虑先从自动化监控做起,逐步完善集中化的操作体系。后面,随着IT信息化程度的逐步提升,再逐步引入IT运维平台其他方面的功能与模块,有步骤、有规划地建设IT运维平台,将有限的预算和资源投入到关键的地方。

  另一方面,IT运维平台的建设也如经济建设的过程一样,是有规划分多个阶段、循序渐进地持续建设过程,而不能一蹴而就。

  这是因为:

  首先,运维平台建设和落地需要一个过程,运维平台也涉及到运维的方方面面。

  例如,以自动化运维平台为例、它本身就会涉及到监控、自动化运维、配置管理数据库(CMDB)、日志采集以及其他专业工具等各种不同方面的功能建设。“罗马不是一天建成”,适合企业特点的运维平台当然也更是如此。

  再者,企业IT运维平台的建设对当时的IT体系有巨大的驱动作用,IT体系需要根据运维平台的建设而做出必要的调整。

  例如,自动化运维的落地使大量日常人工完成的工作转由机器完成,运维人员从繁重的工作中解放出来,必然会对当前的运维体系带来改变,需要将富余的人力资源投入到更为重要的岗位和角色中,如丰富自动化运维的场景、将更多复杂的运维操作标准化等,进一步提升企业IT运维的质量和效率。这种调整并不是一朝一夕的事情,需要逐步转化、调整和消化的过程。

  最后,运维平台建设的四个阶段有极强关联性和前后顺序,后一阶段往往需要前一个阶段的积累和经验为基础。

  例如,手工运维阶段中运维人员头脑中或各自宝典中的经验和脚本,将以运维场景的方式在自动化运维阶段实现标准化、集中化和自动化;而自动化运维中积累的大量运维数据,又为运维数据信息化分析和智能运维提供了必要的基础;智能运维,则是运维数据分析数据、算法和场景的结合体。

  因此,运维平台每一个阶段的建设,往往对后续阶段有重大影响。

  (结合企业现状及痛点的平台整体愿景和分阶段建设规划)

  因此,对于如火如荼的企业运维平台建设,我的观点如下:

  企业运维平台建设非常重要,它直接推动企业IT运维效率的巨大提升,降低企业运维资源投入,同时也是企业运维质量提升的不二利器。

  运维平台建设将会对整个运维体系有明显的驱动作用,运维体系包括管理制度、流程、人员等各种因素需要与之做出适当的调度。

  需要针对企业现有的IT环境及未来一段时间的发展做出合理的运维平台未来蓝图和建设规划。规划很重要,有规划才能有计划、有目的地进行运维平台建设。

  企业运维平台需要有一定的前瞻性,但是由于落地实施需要时间和资源的配合,绝不能贪大求全。

  基于运维平台构建企业自身特点和需求的各种运维场景,建设自身的运维平台,并不能生搬硬套,适合自己的才是最好的。

  运维数据可视化是体现运维价值的一个重要途径,将运维数据更为公开、透明,让企业管理层带来更明确的运维体验。

  企业IT运维人员是运维平台建设的主力,他们长期在企业运维中积累的思想、经验和知识,将归纳和总结到运维平台中并传承下去。

  E8运维是国内最早成立的IT运维技术社区,致力于为运维相关领域的工程师打造一个良好的学习交流平台。深度剖析国内运维业内动态,分享DevOps、自动化运维、智能运维等优秀实践,帮助运维人员提升技能和规划职业发展路线。


分享到: