2015年,某第三方支付工具在PC网页和手机客户端出现无法登录、网络异常等现象,对此,官方回应称,服务异常是因为某地光缆被挖断所致;
没过多久,某订票的官方网站及APP也陷入瘫痪状态,通过官方发布的消息称:部分服务器遭到不明攻击,导致官方网站及APP暂时无法正常使用。
在上述事件持续发酵的过程中,网上迅速流传这样一个段子:挖断了光缆你就瘫痪了?做双活啊!数据中心贵,就上云啊!黑客攻破就完蛋了,为什么不做灾备!
什么是灾备?
灾备,是容灾和备份的简称。
不论是自然灾难还是人为灾难,只要有数据传输、存储和交换的地方,就会产生数据失效、丢失、损坏等风险,一旦发生,就会给数据中心带来难以估计的损失;而灾备,就是业务数据安全的重要保障。
容灾的定义指在相隔较远的两地(同城或异地)建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处因意外(天灾、人祸)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作,侧重数据同步和系统持续可用。
备份的定义指用户为应用系统产生的重要数据(或者原有的重要数据信息)制作一份或多份拷贝,以增强数据的安全性。侧重数据的备份和保存。
灾备的两个关键技术指标?
RTO:RecoveryTime Object,恢复时间目标,决定业务中断了多长时间。灾难发生后,从IT系统宕机导致业务停顿之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。比如说灾难发生后半天内便需要恢复,RTO值就是12小时。
RPO:Recovery Point Object,恢复点目标,决定了丢失多少数据。灾难发生后,容灾系统进行数据恢复,恢复得来的数据所对应的时间点称为RPO。如果企业每天凌晨零时进行备份一次,当服务恢复后,系统内储存的只会是最近灾难发生前那个凌晨零时的资料。
当灾难发生后,最理想的状态是系统立即恢复,而且完全没有数据丢失,即RTO及RPO皆为零,可这样一来,造价也是非常昂贵的,而且也不一定有这个必要。
数据中心灾备技术有哪些呢?
数据中心的灾备技术大体上可以分为五种:冷备、暖备、热备、双活、多活。
冷备:即冷备份,也称离线备份,是指在关闭数据库并且数据库不能更新的状况下进行的数据库完整备份。冷备份只有主数据中心承担业务,备数据中心不会对主数据中心进行实时备份,当主数据中心宕机时,业务也会随之中断,此技术对故障无提前防范和接管能力,恢复耗时较长,已经无法适应数据中心灾备发展的高要求。
暖备:暖备份是介于冷备份和热备份之间的一种方式,它主要通过设置硬盘远程镜像、数据库复制和设置灾难备份中心以实现对整个系统的完全备份。
热备:即双机热备,指的是基于高可用系统中的两台服务器的热备。虽然热备份也只有对主数据中心进行实时备份,当主数据中心故障造成业务不可用时,备数据中心可以自动接管主数据中心业务,并且业务能够在最短时间内恢复。
双活:这是一种比较节约资源的数据中心灾备方案,其实现方式是让主备两个数据中心同时承担业务对外提供服务,此时,主备两个数据中心互为备份,并且进行实时备份。一般来说,主数据中心的负载可能会多一些,比如分担60-70%的业务,备数据中心则分担40%-30%的业务,相较于热备和冷备,双活技术是主备数据中心同时承担业务,当其中一个数据中心故障时,另一个数据中心会自动接管所有业务,为业务正常运行提供高可靠保障。
多活:异地多活一般是指在不同城市建立独立的数据中心,“活”是相对于冷备份而言的,冷备份是备份全量数据,平时不支撑业务需求,只有在主机房出现故障的时候才会切换到备用机房,而多活,是指这些机房在日常的业务中也需要走流量,做业务支撑。常见的几种灾备架构?
用云搭建异地容灾中心:本地物理机房为主数据中心,仅将数据备份到云端。
基于公共云的同城灾备:将全部系统迁移上云,并部署在同一个地域的两个不同可用区中,实现系统的同城灾备。
基于公共云的异地灾备:将全部系统迁移上云,并部署在两个不同的地域中,实现跨地域灾备。
结合公共云同城灾备和异地灾备:如两地三中心,三地五中心等。
有了灾备系统就万无一失了吗?
有灾备,和敢不敢切换,是两回事。
一个好的灾备系统,一定会包括一个完善的灾备演练机制。从物理世界到虚拟世界,安全问题不可避免,对企业来说,灾备很重要,平时的演练也同样十分重要。经常演练,就不怕灾难发生后恢复不了数据,造成不必要的生产风险和浪费。
在数字化转型时代,高标准的SLA(服务级别协议)需要更快速的业务恢复能力,我们对于上到云上的业务系统有更高的SLA要求,过长时间的数据恢复,无法满足云时代的RPO和RTO需求,因此,灾备系统也需要随之同步升级。