银行灾备建设的四大误区

2017-10-23 11:50:18      点击:

  银行只要投巨资建设了灾备系统,以后就不会再出现业务中断和数据丢失了吗?其实,灾难备份/恢复与业务连续性有很大的差别,不能将两者混为一谈。“对灾备的错误认知是导致灾备建设失败的重要原因。


容灾不等于业务连续
一些企业领导的固有思维是:容灾与业务连续性是一回事,只要拥有了灾备系统,就不应该再出现业务的停顿。其实,灾难备份主要用于应对较大的灾难事件,而不是针对局部的事故。业务连续性的概念更宽泛,无论是局部的故障,还是大面积的灾难,都不能使业务中断。许瑀表示:“灾难备份是业务连续性的基础和根本,是企业多层次信息保护的重要组成部分。当企业面临大的灾难时,为确保业务连续性,应优先考虑建设基本的灾难备份和恢复系统。在‘9·11’灾难事件中,美国世贸中心里数百家没有灾难备份系统的公司彻底消失了。这充分体现了灾难备份作为企业信息架构基础组成部分的重要性。在建立了完善的灾备系统后,企业可以考虑构建多层次的信息保护体系,保障并提升业务的连续性。”
由于投入的资金数量不同,IT基础设施的状况不同,灾备建设的思路不同,不同行业的用户在建设灾备系统时,很难遵循一个统一的策略。不过,银行灾备有一个相同点,即无论采用何种技术手段,都必须保证数据的安全。这是灾备建设的底线。
 
重异地灾备轻本地保护
“实际上,导致IT系统出现中断,97%的原因是物理设备故障和系统的逻辑错误,只有3%的业务中断是由大灾难引起的。”许瑀分析说,“其实,本地数据保护与异地灾难恢复都非常重要。有的用户认为,只要建设了异地灾难恢复系统就抵御所有的灾难,因此忽视了本地的数据保护。这是一个误区。”
许瑀举例说:“某用户的磁盘出现故障,由于换盘时的错误操作导致核心数据库损坏。该用户利用本地备份系统恢复数据,恢复时间长达一周,而且丢失了两天的数据。”有些用户盲目追求过高的异地灾难恢复RTO和RPO指标,要求RTO小于4小时,RPO小于15分钟。但事实上,该用户在进行本地数据恢复时,RTO大于1天,RPO为24小时。用户花大价钱建设异地灾备系统,却不能避免本地频繁产生的数据故障,这其实是本末倒置。许瑀认为,只有将系统的本地数据保护与恢复能力和异地灾难保护与恢复能力相结合,才能构成完善的业务容灾体系。本地数据保护与异地容灾防范的风险不同,因此采用的技术手段、机制和措施都不一样。有些需要面向公众提供服务的系统,对灾难恢复的时间要求十分严格。但是大多数信息系统对灾难恢复的等级要求并不太高,可以忍受几小时的灾难恢复时间。对于大多数用户来说,最重要的不是恢复时间的长短,而是数据能够100%被恢复,不丢失核心数据。
 
RTORPO指标过高
在建设灾备系统的过程中,RTO和RPO是两个非常重要的指标。那么,RTO与RPO的数值是不是越小越好呢?“某银行在针对其网上支付业务建设灾备系统时,提出系统恢复时间小于30分钟(即RTO小于30分钟),只能丢失5分钟的数据(即RPO小于5分钟)。”许瑀表示,“当时我看到用户的RTO和RPO指标要求,第一感觉就是这不现实。因为银行的系统出现故障后,为了恢复数据,技术人员通常要根据日志对活动账号进行分析,而所有的日志分散在多个业务系统中,处理这些日志可能要采用手工方式。完成上述一系列步骤,银行至少要花费一两个小时的时间。”
企业在制定灾备恢复的目标时,一定要从业务的实际需求出发,不能盲目追求过高的RTO和RPO指标。过高的RTO和RPO指标不仅会增加灾备建设的成本,而且会让用户迷失在数字游戏中,对业务的保护无益。
 
忽视日常的运维管理
2007年,某公司的核心业务系统发生意外宕机,多个关键业务数据库停顿。公司领导决定启用同城灾备系统。但是在进行恢复时,技术人员发现,容灾端数据严重滞后于生产端数据,灾备系统根本无法启用。”许瑀举例说,“事后,人们在追查原因时发现,由于系统管理员在进行灾备端测试时中止了灾备数据复制关系,测试完成后,忘记恢复灾备数据的复制关系,从而导致了灾备系统在灾难发生时无法启用。”

在某些企业中,灾备系统完全成了摆设。平时,这些企业的技术人员不对灾备系统进行定期检查,而且忽视了灾备演练。因此当灾难发生时,灾备系统很难发挥作用。中金数据系统有限公司高级副总裁陈天晴告诉记者,他们曾经按照合同要求为某客户灾备演练服务,但是客户的相关人员总以工作忙为由推脱,造成服务合同迟迟不能履行。许瑀表示:“企业在建成灾备系统后,应该定期进行灾备演练,并建立完善的业务连续性计划(BCP),包括详细的灾难恢复计划及本地恢复计划等。


点击将有更多机房选择