详解IT运维发展趋势及运维人的转型升级(3)
二十多年前,企业IT信息化刚刚起步,IT运维基本还处于刀耕火种的时代,没有所谓运维工具也没有意识其存在必要性。几个小姑娘定时在终端上敲些命令,并在纸质的表格上一丝不苟地记录着读数,这还是当时比较规范运维做法。原因是当年那个年代需要维护IT系统的量很少,单靠人也看得过来。 在IOE架构统治的时代,运维团队的人工维护还是占绝大部分。当然其中也不乏一些人,开始总结他们的运维操作,将一些常用的操作写成大量的脚本以便于从事一些机械、重复的事情时候可以“偷个懒”。但是,在这个阶段手工运维还是占了绝大部分的工作量。 2、ITOM 在IOE架构时代的后期以及互联网架构开始普及,也同时伴随着企业IT信息化的不断深入,企业中IT设备量呈现爆发性的增长,单靠人力开始逐渐管不过来。 以我服务过的某运营商客户为例,最初的业务支撑部门负责维护其核心系统,当时只有区区20来台主机,几个数据库。然而其后数年,维护系统规模上升了十数倍,运维团队规模只增加了不到一倍。维护规模和运维团队能力只会形成了事实上的越来越明显的剪刀差,这成为运维管理中最核心的矛盾。 而后到了企业开始尝试引入互联网架构,系统的复杂度更是陡然上升、维护目标更是迅速增长,按照传统的手工或者半自动维护来做,就更是走不通。因此,企业为解决这种问题,尝试引入各种运维工具通过自动化的手段解决运维人手和能力不足的问题,IT运营管理也就应运而生。 IT运营管理(ITOM)是指对IT基础设施以及软件应用等对象的运营进行实时监控管理并提供反馈的服务,为监测对象保持最佳运行状态提供保障。ITOM领域的工具分为三大类别,分别是:
IT 运维管理(ITOM)将从原有的人工加被动响应,转变为更高效、更为自动化的运维体系。 以上文提及的运营商客户为例,由于运维人力的增长无法区配IT系统规模的增速,企业连每天早上大规模营业前,对所有IT系统的设备进行一次常规状态巡检也难以维持。 为解决这个矛盾,专门部署和实施了我们的自动化监控和运维平台,将大量常规的操作交由机器实现。就正如每天的巡检动作,只需要定义好相关的巡检模板,机器就会十年如一日地按照我们定义的规范进行各种巡检操作。 如巡检结果中出现任何异常,运维人员的手机就会出现该问题的告警短信,通知相关运维人员处理。这种自动化的运维工具体系,其实质是让机器管理机器,将大量重复、机械的运维工作交给机器执行,有效地降低运维人力资源的投入,也让运维人员的精力得以释放并投向更为重要的领域。 最近我又跟该运维团队的负责人在聊天,了解到他们实际上80%运维操作都交给机器自动去完成。最后,他哈哈一笑道:“其实我们现在运维团队除了应对突发性的系统故障以外,最常见的事务实际上是给应用系统为企业各式人员创建账号和分配权限,并且我们现在正在开发代码将这件事也自动化了”。 3、基于运维数据的分析ITOA ITOM体系将自动化带到运维当中,让IT运维更加高效。但是,ITOM仍然未能打破运维工作对运维者经验的依赖,往往缺乏分析能力,虽然也能采集到运维数据,但无法对这些数据所包含的信息进行洞察,更加无法将数据进行知识化的本质提升。 例如,各种故障的处理分析过程中,仍然是依靠运维者的经验甚至直觉来分析处理,运维决策中各种拍脑袋的例子仍然层出不穷。这是因为传统的ITOM工具往往缺乏数据分析能力。虽然也能采集到部分的运维数据,但是由于数据采集不全面,并且数据未能整合、数据间缺乏连接和分析手段,所以运维者无法对这些数据所包含的信息进行洞察,更加无法将运维背后进行知识化的本质提升。 因此,运维者开始着手进行基于运维数据分析ITOA的探索。大数据技术的成熟,让海量运维数据的分析成为了可能。参考经营分析领域的例子,我们开始着手建立了从运维数据采集、处理、分析和可视化展示的全面运维数据分析体系。我们运维IT系统无时无刻不在产生海量的数据,它产生的数据量甚至可能会超过我们的应用系统,因此运维分析天生就是个大数据的应用场景。 实现基于运维数据的分析ITOA 首先要解决的是数据采集问题: 因为运维体系中的数据是多种多样的,有像监控系统直接采集回来的结构化的数据,也有像各种应用日志、机器日志等非结构化的数据。 为了便于我们后续的数据分析,我们需要将其中难于分析的非结构化数据转换成结构化的数据加以存储。例如图1-3是在Apache Web日志中的一行记录,其中蕴含着会有大量有用的信息,如客户的IP、客户所使用的客户端,它访问的页面信息、访问时间等关键信息。 我们通过有效的工具将这些信息切分并形成结构化信息,源源不断地存储到运维大数据中心,见图1-4: 大数据技术发展也为我们提供了存放海量运维数据基础: 我们可以通过大数据平台构建我们的运维大数据中心,从我们整个运维的IT环境中采集回来的运维数据将在此基础上进行数据存储和整合。这样我们可以改变ITOM体系中数据分散,难以关联分析的缺陷,因为数据需要更多的连接与关联,其背后的价值才能充分发挥。 (编辑:ASP站长网) |