设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 试卷 文件
当前位置: 首页 > 服务器 > 安全 > 正文

中国人寿数据中心运维经理桂林——自动化运维自主研发之路

发布时间:2021-01-14 14:31 所属栏目:53 来源:网络整理
导读:《中国人寿数据中心运维经理桂林——自动化运维自主研发之路》要点: 本文介绍了中国人寿数据中心运维经理桂林——自动化运维自主研发之路,希望对您有用。如果有疑问,可以联系我们。 作者简介 桂林 中国人寿上海数据中心,服务处经理 带领团队独立自主开发

《中国人寿数据中心运维经理桂林——自动化运维自主研发之路》要点:
本文介绍了中国人寿数据中心运维经理桂林——自动化运维自主研发之路,希望对您有用。如果有疑问,可以联系我们。

作者简介

桂林

中国人寿上海数据中心,服务处经理

带领团队独立自主开发了中国人寿自动化运维平台,基于开源平台自开发,建立了自主监控、自主流程、移动运维的一体化智能运维体系.

前言

本文主要讲的是中国人寿自主研发自动化运维平台成功要素.写了中国人寿自动化运维平台从无到有这样的过程,并这有一些关键的要点,给大家做一些介绍.

上图中的照片来自网络,我曾经是个快乐的码农,以前是做一些保险业务平台开发,比如车站码头乘客意外险出单系统等,后来开始做运维,真是一入运维深四海,没有做开发那么痛快,因为有很多苦逼的经历.

1、运维之疼

疼点一:系统繁多

以前我们分公司的机房可能没有那么规范,我们做光纤布线的时候没有跳线架,拿一根PP管把光纤插进去,揭开机房地板直接从地板下面把PP水管捅过去,用这种方式来搭光纤连接服务器和存储,很粗放.

集中到数据中心运维之后,主要的产品线比较多,特别是像我们这种情况,因为我们现在集中主要还是物理集中其没有逻辑,就是一个系统就是只有36个分公司,一样的数据库可能就是36个,所以我们产品线比较多,这个就导致我们应用的实例和数据库的实例也比较多,我们批作业量也是比较大.

这个前期我们在没有上线自动化平台之前,我们是发动了全国分公司的信息部的人力一起干,为此我们还要拨出一部分费用,每一年给他们一点奖励.

疼点二:设备繁杂

我们的设备是比较繁杂的,大家看这张图片,很多分公司的机房就是这样子的,当然总部数据中心要规范多了.

疼点三:标准杂乱

到目前为止实际上我们已经在逐步的去改善这个情况,但是现在我们还是有一部分的大部分核心数据是在小机上面跑.标准比较杂乱,我们刚刚做的时候,标准是比较混乱的,操作系统也是有32位的有64位的,redhat 有5.4的,有5.8的,我们数据库版本有也有很多种.

疼点四:操作无序

这个是一个最大的问题,就是我们的操作,手工操作这个是比如说我们做数据库转换的时候,或者是很大的一些数据迁移的时候,我们可能会大量抽调全国做临时的补充.人手不够是因为你没有相应的自动化平台,平时我们操作的时候也是按照一个操作手册来做的,而且变更也没有做一个有序的管理.

这个也是一个很严重的问题,基本上节是出了事情我们开始做变更.没有一个完善的规划,这个也是一个比较严重的问题.一个事件导致一个变更,因为是没有计划和组织,没有经过严格的一个计划安排,所以说往往有可能导致新的事件,被动地变成一系列的变更.

那么怎么办?这个会导致,我们需要有一个蜕变.从传统的企业来讲,我们其实蜕变的这个程度还是比较痛苦的.

2、化茧成蝶

蜕变一:标准化

我们的第一个目标就是将大量的开始做X86和U2L转换,把我们本来是在小机上跑的应用程序转移到X86平台上去,进一步转移到虚拟机的 Linux.

这个应用改造是第一步,我们通过这个改造我们节约了大量的小机.现在我们除了核心的数据库在这小机上面,我们基本上所有的应用服务器都是基于 Virtual Linux,当然虚拟机也有一部分是 win 的.而且现在除了 vmware 之外我们还有建立了我们一个 OpenStack 集群.

我们做 OpenStack 给我们的研发团队使用,同时我们还在做我们的一个基于 Docker 的一个 PaaS 平台的研发.我们通过这些方式为后期的标准化打下基础.

  • 基础平台标准化

我们开始做一个标准化,首先是统一一个设备的采购标准,我们统一了一个操作系统、数据库、中间件版本以及我们很多的开源的平台我们也是做标准的统一化,就是有统一的规范,以便我们运维有一个统一的管理.

  • 应用架构标准化这个是我们根据以往的教训对研发上线的应用系统我们做出了一些架构上的规避,比如说我们对非集群的系统我们不允许上线,或者说你这个是单点的,你没有采用集群架构我们是不允许上线的.你用什么手段保证你的数据库实现一个热切换,可以有一个更快的恢复,规定我们一个抽取的标准,你数据怎么抽取也要有一个规范.我们和研发就达成了一个君子协定相应对于你推过来的版本不符合规范我们是不允许上线的.我们应用架构标准化这一块是就是推动到研发当中去发挥出我们的影响力.
    • 运维流程的标准化

这一块我们新从新开始做出梳理,先是从有设备来的时候配置资源上线和下线的流程,到把我们这个设备的管理规范起来,然后我们再设立我们计划变更的流程.

现在我们基本上规定在周三有一个小变更,周五一个大变更,其他时间是不允许做变更的.这样我们如果说有变更的话,我们都要提前一周做一个变更计划,通过评审才可以在下周做一个大变更.

我们对于一些影响比较小的,范围比较小的小系统,或者是特别紧急的系统,我们可以做紧急的变更,我们紧急变更我们也有一个审批流程,这样就把我们整个的变更的管理让他有序,让他形成一个安全可控的一个状态.

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读