六个人如何运维一万台服务器?(6)
监控报警下面看一下我们是怎么在运维平台去做监控报警的。作为一个互联网公司,保证 7x24 小时提供服务是一个最基本的要求,我们要怎么去保证 7x24 小时服务? 假如说系统有问题的时候,我们能够提前预警发现,等系统真正出现问题的时候,我们能够及时的发现。要保证这两点,我们就需要监控报警系统。 去哪儿网的监控报警系统也是经历了很长时间的挣扎,刚开始每个部门都会维护自己的一套系统,刚开始是 Cacti 和 Nagios 这两个模块去搭建的,这样存在什么问题?
由于之前的系统没有很好的权限管理,这个系统只能由专门的人来负责,因为放开给其他人权限是比较危险的,可能有人不小心操作了什么,把报警删掉或者修改报警配置,所以只有把报警交给专人负责。 要定制一个报警监控沟通成本非常高,我们需要联系自己的相关负责人,然后再去报警配置。 开发人员觉得太麻烦了,干脆不做了,或者做得非常少,导致我们监控的面不够全,可能有一些异常甚至是故障都没有及时发现,效率是比较低下的。 怎么解决这个问题?我们做了一个公司级的统一监控报警平台 Watcher 。 报警平台有这样几个目标:
简单介绍一下 Watcher , Watcher 是基于 Graphite 深度开发的, Watcher 平台既支持主机基础监控报警,同时也支持业务监控报警,都在一个统一的平台上,监控报警可以由开发人员在统一的界面上查看和配置。 Watcher 大概 2014 年开始做,现在有三年时间,在公司也推广得很好。 现在 Watcher 已经接入 1500 个以上的应用, 目前的指标数量已经超过了 2000 万,报警数量已经超过了 40 万,接入了基础监控的机器数量也超过了 4 万台。 (编辑:ASP站长网) |