【IDCC2019】Uptime胡嘉庆:数据中心全景透视(3)
前面讲的是趋势,当然不是全部,下面讲一讲发生的事故。Google发生的事故是持续4个小时没有办法动,影响了全球170个城市,数百万人没有办法使用。发生了什么事?他在维护设备的时候,发现伺服器在维护的过程中要中断,因为不断的同时更新独立的软件。假如所有数据中心都在做这个工作,数据中心就会有问题,造成了拥塞。 部分AWS在美国劳动节时停止服务,因为电力中断,发动机启动了90分钟之后停机。我们要求的是备用柴油量要达到12小时。造成了一些数据损失,7.5%用户受到影响,用户受影响时间达到3—6个小时。 瑞典、荷兰都是因为电信公司的中断,911急救服务都停了。在荷兰911停了4小时,网络传输路由在三个备份系统中断发生错误。瑞典整个服务中断或降级运行超过一天,包括911、一般电话、手机以及网络电话都受到影响。 CenturyLink很大的地产公司,全球有五六十个数据中心,2018年的一场事故,造成其百万美金的服务损失。共停了37小时,通过它的911服务都停掉了。一直到2019年8月才公布调查结果,所以大家都在骂这是骗人的,你的NCC、FCC是假的。他们讲是有四封恶意的封包造成国家级故障。一年前,俄罗斯的电厂也是被黑客侵入。他们的侵入不是走正常的网络,而是走设备的后门。很多设备都有检修口,平常是关是开你不知道。所以,在数据中心管理的时候你要知道他是关的还是开的,否则这就是开了一个后门,使得黑客可以进去。你今天听到了这个消息,回去要先检查你的设备有没有这个“后门”。 当逐渐到了运行中断的临界,高速计算是否真的是非必要的?大风和干燥的天气造成了野火的危险。 东芝西部数据中心今年6月份停电,造成6—9小时公司闪存生产停产。 时间有限,跟大家分享一下我们看到的数据中心发展态势和发生的一些事故。谢谢大家! 延伸阅读:
(编辑:ASP站长网) |