设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 数据 公司
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

六个人如何运维一万台服务器?(6)

发布时间:2017-12-19 10:06 所属栏目:19 来源:51CTO技术栈
导读:监控报警 下面看一下我们是怎么在运维平台去做监控报警的。作为一个互联网公司,保证 7x24 小时提供服务是一个最基本的要求,我们要怎么去保证 7x24 小时服务? 假如说系统有问题的时候,我们能够提前预警发现,等

监控报警

下面看一下我们是怎么在运维平台去做监控报警的。作为一个互联网公司,保证 7x24 小时提供服务是一个最基本的要求,我们要怎么去保证 7x24 小时服务?

假如说系统有问题的时候,我们能够提前预警发现,等系统真正出现问题的时候,我们能够及时的发现。要保证这两点,我们就需要监控报警系统。

去哪儿网的监控报警系统也是经历了很长时间的挣扎,刚开始每个部门都会维护自己的一套系统,刚开始是 Cacti 和 Nagios 这两个模块去搭建的,这样存在什么问题?

  • Cacti 部署在单机上,不能横向拓展,导致性能比较差。假如单机出现异常甚至宕机,那我们的监控报警系统就完全不可用,所以这是一个非高可用的方案。

  • 每个部门都会维护一套自己的监控系统,甚至比较大的部门,像酒店机票这种大部门,他们可能会维护很多套,每一套都需要有专门的人员来运维,运维成本也非常高。

由于之前的系统没有很好的权限管理,这个系统只能由专门的人来负责,因为放开给其他人权限是比较危险的,可能有人不小心操作了什么,把报警删掉或者修改报警配置,所以只有把报警交给专人负责。

要定制一个报警监控沟通成本非常高,我们需要联系自己的相关负责人,然后再去报警配置。

开发人员觉得太麻烦了,干脆不做了,或者做得非常少,导致我们监控的面不够全,可能有一些异常甚至是故障都没有及时发现,效率是比较低下的。

怎么解决这个问题?我们做了一个公司级的统一监控报警平台 Watcher 。

报警平台有这样几个目标:

  • 高可用,一台机器或几台机器挂了,对我们没有影响或者影响很小。

  • 比较容易的让大家去配置这个报警,我们做了一个权限管理系统,也是借鉴应用树做了一个树状的权限管理系统,把整个 Watcher 界面开放给所有的开发人员,这样大家就可以非常方便的配自己的报警和监控。

简单介绍一下 Watcher , Watcher 是基于 Graphite 深度开发的, Watcher 平台既支持主机基础监控报警,同时也支持业务监控报警,都在一个统一的平台上,监控报警可以由开发人员在统一的界面上查看和配置。

Watcher 大概 2014 年开始做,现在有三年时间,在公司也推广得很好。

现在 Watcher 已经接入 1500 个以上的应用, 目前的指标数量已经超过了 2000 万,报警数量已经超过了 40 万,接入了基础监控的机器数量也超过了 4 万台。 

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读