文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

盘点:近年数据中心十大灾难事件

2024-12-01 01:58

关注

对于数据中心来说,保持业务连续性是首要目标,然而庞大的数据中心面临众多潜在风险,小概率事件也可能带来灾难性后果——机房火灾、服务器长时间宕机、声誉受损,据不完全统计,仅仅2020年以来有十几桩类似大故障发生。

IDC圈经过梳理盘点,列出近三年来严重程度可排前十的数据中心灾难事件。

数据中心火灾前/后对比

事件一:韩国SK公司数据中心火灾

韩国数据中心火灾

2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,大火在大约8小时后被扑灭。

起火后数据中心断电造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。据《韩国时报》报道,本次火灾导致了约3.2万个服务器瘫痪,数千万用户服务受到影响——截止2021年,韩国人口约为5200万。一天之后Kakao Talk等服务才开始陆续恢复。数据中心客户表示,由于损失了大量服务器,恢复过程比预期的要长。

调查发现,安装在地下三层电气设备室的5个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

事件二:湖南电信荷花园大厦起火

2022年9月16日,位于湖南省长沙市芙蓉区的湖南电信大楼发生火灾,数十层楼体燃烧剧烈,消防赶到后将火势扑灭,撤离及时,无人员伤亡。经初步侦察,现场为大厦外立面起火。为防止发生危险,大楼部分设备断电,据中国电信官方及用户反映,部分用户手机语音和短信功能受到影响,截止当晚12时仍未恢复。

长沙电信大楼起火-图源央视新闻

长沙电信大楼于2000年建成,建筑地上42层地下2层。大楼内含荷花园电信机房,是湖南最大的主干线接入点之一,此前资料显示,机房具备25G光纤直CHINANET骨干网,总机架数量约1000个。

事发前招标信息显示,该大厦消防设备超期运行,火灾报警系统等存在较大安全隐患。

事件三:谷歌数据中心电气爆炸

当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成3人受伤。

媒体报道,3名电工在数据中心大楼附近的变电站工作时,突然发生了电弧闪光(电气爆炸),导致三名电工被严重烧伤。事故发生后,多个地区的谷歌地图、谷歌搜索出现中断服务情况,有数据显示,该故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区、欧洲和亚洲部分地区。

谷歌证实了这场意外为电力事故,但未披露具体原因。

事件四:英国高温致多个数据中心宕机

2022年夏天,欧洲经历极端高温,当地时间7月16日英国气温达到42℃,位于伦敦的谷歌云和甲骨文数据中心均因气温过高出现故障,导致系统宕机。

甲骨文报告,数据中心的两台制冷系统出现故障,导致数据中心内部气温越来越高,一些系统自动采取保护措施关闭作业,使得一些用户的数据使用出现延迟问题。谷歌同样称数据中心内的冷却系统出现故障,导致了该区域的部分容量故障,导致VM(虚拟机)终止和一小部分客户的机器损耗,同时谷歌关闭了机房内的一些机器,以防进一步损坏。

谷歌表示只有“一小部分用户”受到了影响。

事件五:网易游戏机房大规模服务器宕机

2021年11月3日,多款网易游戏出现无法登录、断连情况。

据《绝对演绎》等游戏官博表示原因系机房过热导致服务器宕机“机房传来报警,温度过高。部分服务器过热宕机。空调重新开机也没有解决问题……”。

事发后约3小时左右,网易游戏各服务器已恢复正常登陆,网易方面并未就此次故障做统一回复。

事件六:Telstra英国数据中心火灾

2021年8月27日,澳洲电信Telstra位于英国首都伦敦的托管数据中心发生火灾并引起宕机。火灾造成一半大楼断电,消防人员表示,虽然只烧毁了三层供应间的一小部分区域,但由于大火使支撑母线的断路器跳闸,工程师们不得不通过发电机恢复电力。

据分析,这次火灾事故很有可能是由于UPS故障引起,事故击穿了温度保障、消防灭火及ups预测性维护、ups预防性维护等多重保障,最终导致火灾。

事件七:汛情致河南多机房断电

2021年7月,河南遭遇极端暴雨天气,多个数据中心受到汛情影响,机房停止服务:

河南移动机房公告

河南移动枢纽机房断电,无法正常办理移动业务;海腾郑州BGP机房、华中郑州市BGP机房等数据中心因所在区域市电中断超过1、2个小时,机房由柴发带载,附近油站因道路积水暂时无法供油到机房,在出现电力中断前,考虑到用户数据安全,临时中断服务。

西部数码郑州区域、晋江文学城、河南省产权交易中心用户方发布通知,表明服务受机房原因中断。

当时IDC圈收到的照片显示,有位于河南的数据中心出现机房进水情况。

事件八:OVH数据中心火灾

当地时间2021年3月10日,欧洲​​云计算​​巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,OVH在该区域拥有的4个数据中心全部暂停服务。4座数据中心中,一座被完全烧毁,一座的服务器损毁了三分之一。

OVH火灾现场

起火后,瘫痪的法国政府、企业与公共事业网站达到约360个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25台欧洲服务器完全损毁,没有备份,数据无法被修复。

尽管OVH短时间调查后解释,此次起火可能因UPS引起,但一年后法国官方事故调查机构的发布的报告显示,灾难更大可能是由电力室逆变器周围的湿气引起的。

事件九:WebNX美国犹他州数据中心起火

2021年4月,美国主机托管公司Web NX位于犹他州的奥格登数据中心着火,导致超360万个网站出现故障,约1.5万名客户的资料受到影响,部分客户数据完全丢失且无法恢复。

事件十:微软Azure美东数据中心服务中断6小时

2020年3月3日,微软Azure位于美国东部的数据中心发生服务中断,持续六小时,导致客户无法使用Azure云服务。

微软随后披露,一个冷却系统故障是导致这次停机的原因,发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度峰值阻碍了网络设备的性能,使计算和存储实例无法访问。

.......

当然,2020年以来,数据中心发生的故障大事远不止以上这些。

例如2020年8月华为云香港机房制冷设备出现异常,导致服务器挂了3个小时;2022年10月,苏州国科数据中心因备用冷塔着火致楼顶着火,但或是影响范围较小,或是如苏州国科数据中心般机房和业务未受影响,因此并未列入。

这里仅盘点故障严重和造成较大影响的事件,供大家了解,以作前车之鉴。

来源:中国IDC圈内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯