详解IT运维发展趋势及运维人的转型升级(4)
例如,在ITSM系统中一个孤立的事件可能很难看出什么,但是在运维数据分析的角度,它可能将与历史上一系列相同的事件做比较,发现在附近时间点上各种数据指标的变化。运维人员通过层层筛选和分析,最终通过分析发现其中运维数据背后规律最后总结为知识库与相关优化动作。这正是一切以数据说话,以数据分析代替经验决策的良好结果。 数据检索能力和数据可视化能力提供保障: 当然,运维数据分析除了单纯提供一个大数据存储和分析的载体外,还需要一些必要的能力保障运维人员可以更好地利用其中的运维数据: 平台需要有极强的数据检索能力。运维数据分析平台存储着海量的运维数据,运维人员为了尝试建立和验证一个探索性场景的时候,往往多次反复检索和查询特定数据。如果运维数据分析平台的数据查询很慢或者查询角度很少的情况下,运维人员建立场景的时间就会拖得很长甚至进行不下去。因此,运维人员可通过平台可以实现关键字、统计函数、单条件、多条件、模糊多维度查找功能,以及实现海量数据秒级查询,才能更有效帮助运维人员更便捷分析数据。 平台需要强大的数据可视化能力。人们常说“一图胜千言”,运维人员经常会通过各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如应用日志、交易日志、系统日志)进行多维度、多角度深入分析及可视化展现,将他们分析的结果和经验向他人表达和推广。因此,平台中需要具备各种旋转透视表、常规报表能力就相当重要。 可应用于多种业务场景: 此外,运维数据分析其实不只用于运维这个范围中,在我们的经验中还常有风险分析、审计、情感分析等业务场景之下。通过采集当前环境中的运维数据,集成现有ITOM工具,利用大数据及数据分析的技术,对IT系统中各个环节的问题进行快速定位、故障排除和预测。对来自业务环节中各个分布系统的数据进行整体分析,合理优化IT服务,挖掘关键业务KPI指标,反哺业务端,帮助其做出明智决策。 4、AIOps 艾瑞咨询研究院的分析预测ITOM/ITOA的市场规模到2020年将达到114.5亿元(见图1-5),但增长逐渐趋缓,而AIOps正是ITOM、ITOA的延续。 通过大数据和人工智能技术分析日志和运维数据,发掘更多运维人员尚未觉察的潜在的系统安全和运维问题。 Gartner在2016年发布的报告中首先提出了基于大数据及算法(Algorithmic IT Operations)的IT运维概念。随着人工智能的快速兴起,Gartner将AIOps的概念从原本的基于数据分析,扩充为基于人工智能,期望通过大数据、现代机器学习及更多高级分析技术,提供具备主动性、人性化及动态可视化的能力,直接或间接地提升目前传统IT运维(监控、自动化、服务台)的能力。 AIOps真正应用和落地时间还很短,从目前的应用而言主要是在运维数据集中化的基础上,应用机器学习算法进行各种数据分析和挖掘的工作。主要的应用场景包括: 异常告警:根据历史监控指标数据,运用基于时序的相关算法对监控指标异常分析,并对出现异常的监控指标发出精准告警。 告警收敛:根据历史事件和告警数据,发现这些事件和告警之间的关系,整合频繁一起出现的事件和告警,并将其认看作同一类故障的告警,从而把多个告警和指标合并,推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。 故障分析:通过运维数据及事件、告警,结合以前发现问题的经验知识库和模型,建立故障树分析,结合决策树等相关算法,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易。 趋势预测:进行历史数据拟合等算法,进行资源趋势/容量预测。例如,主机CPU,交换页不足、内存不足、存储不足会逐渐导致系统故障或应用故障,该系统建立关联模型,提醒用户可能后继可能发生系统故障或应用故障。在故障产生真正业务影响前,告知运维人员事先解决问题。 故障画像:通过采集多维度运维数据,构建多元结构化底层运维数据模型,配合各类运维场景,并在场景里对故障进行画像,通过各种故障画像标准形式来辅助企业进行IT运维 决策和处理过程。 当然,AIOps的应用场景远不止于此,正是由于这个概念出现的时间比较短,也就有更多的发挥空间容我们去细细发掘。总体而言,从手工运维、ITOM、ITOA、AIOps的发展路径体现了运维自动化、数据化到智能化这一主要发展趋势。 四、运维核心:从关注平台走向数据资产 企业技术架构的变迁,引发了运维管理方式的变革,同时运维工具也在不断与时俱进。 从总体而言,IT系统运维正朝着自动化和智能化的步伐不断走下去。作为IT运维工作本身,我认为运维工作难度正在不断下降,运维工作量也在不断下降,毕竟大多数的工作量都交给了机器去完成。作为IT运维者的我们未来的方向,或者说未来的出路在何方呢? 1、关注平台 经典的企业架构中,不同的企业架构框架理论虽然角度不同,但是他们对企业架构内容的层次划分大体上还是一致的,基本上都是从如下几个方面(或至少包含如下几个方面)对企业架构进行描述: 一般自上而下会分为业务架构、应用架构、数据架构和基础技术架构。传统上的IT系统运维的主要对象是企业IT环境中的各种硬件及软件平台,例如,各种主机、存储、数据库、中间件等。企业IT运维团队一般主要集中于技术架构层面以及少量应用架构层面(见图1-6)。 2、数据资产 然而,时代在不断向前发展,企业中的基础技术架构在革新,云化、开源化、高弹性互联网架构技术架构逐步成为企业架构主流,大量新技术的涌现和应用,使集中式中心化的系统架构被打破,系统架构日益趋向云化和分布式架构。 (编辑:ASP站长网) |