六个人如何运维一万台服务器?(11)
有了成本意识之后,我们可以更加合理的分配资源。比如有的应用本身不是很重要,还申请了特别多的机器,机器使用率也不高,拿到账单一看,这么一个不重要的应用竟然耗费这么大的账单,然后他们就会回收一部分资源。 目前我们也在不断的去接入各种各样的应用账单,比如说主机账单、网络带宽账单、监控报警、日志收集、大量的存储,还有计算资源账单,还有其他的一系列的账单,都会慢慢接入进来。 —————————— 总结 —————————— 最后做一下总结,在去哪儿网运维自动化历程中,我们经历了不同的阶段。 我们发现等应用扩大到一定规模的时候,需要运维平台化,自动的或者半自动的方式是非常耗费人力资源的,并且它也会大致发现一些错误甚至是故障。去哪儿网运维自动化也是做得非常不错的,怎么来体现? 我 2013 年入职,我入职的时候日常运维的人员大概有五六个,现在我们日常运维的人员仍然是六个,我们又推出了一个运维机器人,运维第七人。 我们还是保持在六人的状态,我们规模扩大了很多倍,从百台到万台,扩大了上百倍的规模,但是我们日常运维人员并没有增加,这是运维平台自动化带来的好处。 应用的可用性需要监控报警系统的保证,基本上在一个应用上线之前就会去把它所有关键的报警和监控架好,这样应用有问题的话就会迅速回滚或者去 debug 。 因为我们有完善的监控报警系统,所以去哪儿网的故障还算比较少的,平均来说一天也就两三个故障。 但是去哪儿网的故障和其他的故障可能不太一样,去哪儿网的故障要求比较苛刻,一次网络故障我们就会记录批次的故障。 比如 Watcher 的监控系统不出图了,超过 5 分钟了,我们可能会深究 P1 和 P2 的故障。 在这样的严格要求下,我们的故障也不会太高,我入职四年来,现在累计的故障数也就 3000 个左右。 要保证我们整个运维生态的发展,我们需要将数据打通,打通需要给应用一个 ID,有了这个 ID 之后,我们就可以在各个运维系统和平台上共享数据,形成一个良性的生态循环。
(编辑:ASP站长网) |