【IDCC2019】Uptime胡嘉庆：数据中心全景透视(3)

发布时间：2019-12-19 22:24 所属栏目：30 来源：中国IDC圈

导读：前面讲的是趋势，当然不是全部，下面讲一讲发生的事故。Google发生的事故是持续4个小时没有办法动，影响了全球170个城市，数百万人没有办法使用。发生了什么事？他在维护设备的时候，发现伺服器在维护的过程中要中

前面讲的是趋势，当然不是全部，下面讲一讲发生的事故。Google发生的事故是持续4个小时没有办法动，影响了全球170个城市，数百万人没有办法使用。发生了什么事？他在维护设备的时候，发现伺服器在维护的过程中要中断，因为不断的同时更新独立的软件。假如所有数据中心都在做这个工作，数据中心就会有问题，造成了拥塞。

部分AWS在美国劳动节时停止服务，因为电力中断，发动机启动了90分钟之后停机。我们要求的是备用柴油量要达到12小时。造成了一些数据损失，7.5%用户受到影响，用户受影响时间达到3—6个小时。

瑞典、荷兰都是因为电信公司的中断，911急救服务都停了。在荷兰911停了4小时，网络传输路由在三个备份系统中断发生错误。瑞典整个服务中断或降级运行超过一天，包括911、一般电话、手机以及网络电话都受到影响。

CenturyLink很大的地产公司，全球有五六十个数据中心，2018年的一场事故，造成其百万美金的服务损失。共停了37小时，通过它的911服务都停掉了。一直到2019年8月才公布调查结果，所以大家都在骂这是骗人的，你的NCC、FCC是假的。他们讲是有四封恶意的封包造成国家级故障。一年前，俄罗斯的电厂也是被黑客侵入。他们的侵入不是走正常的网络，而是走设备的后门。很多设备都有检修口，平常是关是开你不知道。所以，在数据中心管理的时候你要知道他是关的还是开的，否则这就是开了一个后门，使得黑客可以进去。你今天听到了这个消息，回去要先检查你的设备有没有这个“后门”。

当逐渐到了运行中断的临界，高速计算是否真的是非必要的？大风和干燥的天气造成了野火的危险。

东芝西部数据中心今年6月份停电，造成6—9小时公司闪存生产停产。

时间有限，跟大家分享一下我们看到的数据中心发展态势和发生的一些事故。谢谢大家！

【IDCC2019】Uptime胡嘉庆：数据中心全景透视(3)

延伸阅读：