【51CTO.com快译】五年前云计算大行其道后,一些IT布道师、CIO和大型科技研究公司预言,我们所熟知的数据中心即将消亡。当时与我同在CIO.com担任专栏作家的Mark Settle建议切勿认为数据中心已完蛋,设想它们会如何基于数据的演变而继续发展。
今天,数据中心不仅继续存活了下来,还以本地即服务等新形式与混合系统和多云系统一同蓬勃发展。不仅如此,数据中心还可满足企业对与边缘计算、物联网和5G等新兴技术相关的服务的新需求。
由于最终用户计算(EUC)和移动解决方案中这些新的应用和新需求,数据中心变得日益复杂,导致了更多的内外风险。停运是持续存在的风险,单次事件每分钟损失高达11000美元。
以下是企业可以为识别和降低数据中心运营中的风险而采取的措施。
1. 采用综合风险管理方法
2021年2月得克萨斯州一场前所未有的冬季风暴和随后的停电事件对该州的数据中心是一次考验。虽然没有发生大规模故障,但电气故障切换系统存在重大问题。
从功能的角度来看,数据中心是运行关键业务应用系统的物理设施;而从业务的角度来看,它们是需要编制预算和加以管理的不动产或资本资产。
关键是,单一故障点可能(并且常常)对业务运营造成巨大中断,从而导致收入损失。这就是为什么您需要适用于整个组织的综合的风险管理计划和政策。
这时候综合风险管理(IRM)有了用武之地。Gartner将IRM定义为“由风险意识文化和支撑性技术支持的一系列实践和流程,支撑性技术通过全面了解组织如何管理一系列独特的风险,改进决策和绩效。”
在后疫情时代,企业实施远程工作、BYOD、CYOD及对工作场所实践做其他的改变,将数字化转型战略与IT基础设施升级相结合,以识别、容忍和缓解自然灾害、供应链、数据处理引起的风险以及经营模式固有的那些风险。
如果您正处于数字化转型中,需要监控可能影响数据中心的每个流程和因素(外部或内部),准备好应对一个事件或同时发生的多个事件引起的多个风险。
数字化转型不仅适用于严重依赖数据或技术的企业或组织,同样适用于后疫情工作场所中的中小企业,包括一开始就用公共云取代数据中心的那些企业。
连联邦政府都在认真对待数字化转型——改造数据中心基础设施以充分利用云技术是两个核心目标之一(另一个核心目标是改善在线用户体验)。
数字化转型专家Jeff Shupack在通过实施精益敏捷为全球资本项目降低风险方面拥有15年的实践经验,他说:“数据中心优化是《联邦信息技术采购改革法案》中一项关键的考评标准。这种考评在一定程度上反映了政府部门基础设施利用云的程度。”
许多组织现在意识到敏捷方法、大数据分析、移动解决方案和开发运营(DevOps)与可靠且经过升级的数据中心可相辅相成,以实现高效的风险预防、迅速的风险响应和快速的灾难恢复。因此,它们纷纷转向使这些优秀实践能够在混合IT基础设施中加以实施的框架,以确保业务连续性、降低运营成本并改善数字化客户体验。
2. 了解风险
无论您的风险管理计划多么全面,其发展速度都跟不上技术。新技术和新工作实践比以往任何时候更加复杂。不妨快速了解一下数据中心面临的不同类型的风险。
- IT安全不够到位
网络安全事件可以说是当今数据中心面临的最大风险,从拒绝服务(DoS)攻击、社会工程学伎俩到数据盗窃,不一而足。2021年数据泄露的平均成本为424万美元,为17年来最高。
应用程序和系统故障也会对物理安全方面产生影响,导致无法验证身份证、闭路电视连接中断或授权人员被拒绝进入某些区域的情况。
- 系统错误
如果没有弹性架构和连续冗余的高带宽连接,数据中心注定被淘汰。服务器、网络设备和相关设备都需要集群、镜像和复制之类的功能,以减小停运的可能性。
有时候,应用程序或软件(比如虚拟机管理程序)会拖累整台服务器或整个网络。您需要确保所有应用程序在混合基础架构中无缝运行,并与云原生应用程序联系顺畅。
- 断电
虽然断电极为罕见,但确实会发生,主要是由于自然灾害。您需要为数据中心中的所有机架和冷却系统提供UPS或发电机支援的供电路径。直接连接到多变电站电网有助于防范本地变电站的停电。
- 漏水
洪水或渗水可能会给数据中心设备带来厄运。所以,精心维护的水路和排水系统对于消防和冷却系统至关重要。
- 高分贝噪音
数据中心一个鲜为人知但重大的风险是长时间暴露在响亮的高频声音振动中,这会降低存储系统的效率,降低读/写性能,并最终影响数据完整性。数据中心应远离体育馆、消防站和机场等场地,并安装在采用声抑制技术的建筑物内。
- 火灾
电涌和短路是数据中心火灾的常见原因。如果不迅速控制,火灾可能会在几分钟内烧毁价值数千美元的硬件。颇具讽刺意味的是,空调和冷却系统会驱散烟雾,因而在早期阶段更难发现火灾。使用带有光电传感器的烟雾探测系统来持续监测数据中心内的空气是否有烟雾迹象。
- 灾难恢复规划不完善
虽然如今数据备份是一套非常简单的流程,但出于安全和性能方面的考虑,数据中心比公共云更受欢迎——万一系统出现故障,您希望立即恢复交易数据。
当然,这取决于业务性质和需要遵循的监管框架等因素。更有理由为每个不同的故障事件制定明确的恢复计划,计算、存储或网络等资源也是如此。
最积极主动的灾难恢复计划都落实了监控系统,可以跟踪影响数据中心的风险因素,超过关键阈值时会发出警报。
3. 管理风险之前先评估
与企业一样,并非所有风险天生都一样。虽然数据中心面临其独特的风险,尤其是对于不同的垂直行业而言,但您最终使用的风险缓解技术不一定适合数据中心环境。
因此,您需要一个风险管理计划列出数据中心面临的所有想象得到的风险,并明确规定对每种类型的事件做出何种响应,做到防患未然。
先进行风险审计——全面评估您拥有和运营的所有设施。评估影响设施设计、IT基础设施和运营流程的因素。
如果过去发生过重大事件或故障,进行根本原因分析(如果仍有必要),以填补还没有补上的任何缺口。您可以做些什么工作来确保类似情况下不会再发生停机?
此外,如果您运行有多个数据中心和云系统的混合架构,应单独审核每个数据中心和云系统,并审核所有数据中心之间的数据路径和连接。
如果您从事金融和医疗保健等监管严格的行业,需要将定期的数据中心风险评估和灾难测试作为日常运营的一部分。
与其他所有事情一样,制定框架、政策或速查表(至少)可以清楚地显示适用于您的风险类别、每个类别影响的系统、估计的损坏和恢复成本以及发生事故或灾难时应遵循的规程。
比如说,IT咨询公司凯捷采用不断完善的风险管理方法,以识别和量化风险及其缓解成本。凯捷高级交付中心经理Kevin Read说:“我们已落实了一套月度风险管理系统,记录所有风险和问题以及遏制和行动计划。如果需要改变,可使用投资预算。”
杜绝停机时间
数据中心——甚至公司的整个IT基础设施——永远不会孤立运行。有许许多多的部件和因素共同使数据中心全天候运行。
IT基础设施的风险缓解是一项共同的责任,而不仅仅是CIO或CTO的责任。您需要有足够数量的受过培训的IT员工,而且他们愿意尽一切努力确保数据中心正常运营。
最后Tenable公司的产品营销副总裁Gavin Millard给出了一条忠告:“相互冲突的目标可能很难达成,但要达成目标,最有效的方法之一是拥有一套高效的流程来持续识别有风险的环节。您还需要一种可预测、可靠的方法来更新系统,又不影响组织的总体业务目标。”
原文3 steps to better data center risk management,作者:Dipti Parmar
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】