/ 中存储网

防患于未然 灾备不是聋子的耳朵

2010-07-28 13:13:03 来源:中国存储网

灾备要防患于未然,保证需要的时候能够靠得住,是企业的“兜底”救命条款,而不仅仅是聋子的耳朵。

问题 PROBLEM

2007年3月21日,交通银行因主机监控软件存在缺陷,导致业务交易阻塞,系统瘫痪近4个小时,所有营业网点无法正常开展业务。虽然交行在第一时间迅速做出反应,但宕机时间仍然长达4小时,平常的应急方案并未能有效解决问题,系统切换并不顺利。

“3月21日,对于交行来说是个无法忘却的一天,系统瘫痪4小时,所有业务无法正常开展。当时我们迅速启动预案,但仍然用了近4小时才恢复原状。‘3.21’事件使得交行真正意识到灾备的重要性,意识到提升系统切换效率刻不容缓。”对此,交通银行信息科技部总经理麻德琼谈道。

自“3.21”事件后,交行迅速在短短4个月时间内完成了同城灾备中心的建立,更成功地对核心业务系统进行同城切换,实现系统切换过程中数据的零丢失,并且仅用1.5小时就完成了系统的切换工作。

“证券业对信息系统依赖程度很高,不同于银行业,银行对数据的处理要求是批量处理能力,而证券业追求峰值处理能力,对处理的速度追求毫秒级。一旦我们的系统宕机,哪怕只有1秒钟,投资者都会有强烈的反应。” 中国建银投资证券有限责任公司(以下简称“中投证券”)信息技术总监、信息技术部总经理张希荣谈道。

中投证券深圳同城灾备中心与主生产中心由两条不同运营商的1000M光纤连接,2008年12月其中一条跑业务的光纤线路出现故障,系统在1秒钟内就自动切换到另一条跑管理的光纤线路上,约1秒钟的系统切换间隔,随后客服很快就接到客户的询问。

随后,中投证券为了提高同城双中心的安全性和稳定性,在同城双中心间增加两条光纤,与原有线路进行捆绑,分别支持业务和管理,即使任何一条线路断了,系统也不会出现停顿。

如果说,系统宕机事件让交行深切体会到灾备的重要性,那么中信控股构建一个统一的灾备中心,则是出于成本、效率的考虑。

“中信控股集团下面有10家金融子公司,过去这些子公司自己建灾备中心,每个灾备中心少则百万,多则千万。不仅给集团带来成本上的增加,更重要的是每家灾备中心的成效并不突出,仅仅为了备份而备份,一旦数据需要灾备恢复,可用的屈指可数。”中信控股责任有限公司信息科技部高级经理左讲道。

像中信控股集团这样情况的企业并不在少数,虽然做了灾备中心,但并未发挥灾备的作用,真正遇到紧急情况时也只能是“有备无换”、“有备不换”。

解决 SOLUTION

为了避免“3.21”事件的再次发生,2007年7月,交行完成了同城灾备系统的建设工作,建立了由上海张江数据中心-漕河泾同城备份中心-武汉异地灾备中心构成的两地三中心体系架构,实现了本地的大型机并行耦合SYSPLEX和小型机CLUSTER集群、同城异地磁盘数据同步复制,以及异地存储异步复制构成三级信息安全保障体系。“为此,我们针对银行的不同业务提出了应用级、系统级和数据级三种不同的灾难备份解决方案,达到不同的灾难恢复目标。”麻德琼解释道。

交行建立了基于磁盘同步复制的先进的同城灾难备份系统,数据中心和同城备份中心的光纤距离达70公里,实时同步的数据量超过20TB。交行更是自主设计并实施了先进的大规模开放平台系统启停集中控制技术,灾难恢复时间(RTO)为1小时30分,并做到了零数据丢失(RPO为0)。

利用自动切换工具,采用集中控制服务器和操作系统内置盘分离等技术,实现了大规模开放平台系统灾备切换的自动化,使得切换一套系统和切换数百套系统所需的时间几乎一样,大大缩短了系统切换时间。

采用磁盘复制技术实现了数据中心与同城备份中心数据的实时同步,数据具有完整性和一致性。同时,将不同的业务系统磁盘数据分为不同的一致性组,既可以进行单套系统的切换,又支持大规模的系统切换,具有较强的灵活性。

2007年7月19日,交行首次将关键业务系统从张江数据中心切换到漕河泾同城备份中心,业务系统在漕河泾同城备份中心运行一天后又切换回数据中心。此次切换和回切的系统包括交通银行的核心账务、信用卡、网上银行等支持零售业务的关键系统,涉及12个应用,100多套系统、数百台设备,跨大型机并行耦合系统、小型机集群系统、LINUX服务器和WINDOWS服务器等异构的系统平台,交行包括上海总行及全国36家分行的200多名技术人员参与了此次切换。

“该切换在国内银行中首次实现了数据中心和同城备份中心之间的业务系统切换运行和回切,业务恢复时间仅1.5小时,达到了国际先进水平。”麻德琼谈道。

据了解,交行此次切换从2007年7月19日至2007年7月20日,用两天时间实现业务处理系统包括核心账务处理系统、信用卡系统、ATM、POS、网上银行等,涉及该行境内所有分支机构的切换、回切工作。

7月19日凌晨3时至4时35分,交通银行首先将全行生产系统由位于上海浦东的数据中心成功切换到位于上海浦西的备份中心,两中心的光纤距离近70公里。7月19日4时35分至24时,交行各项业务处理在备份中心稳定运行了一天。7月20日零时至1时40分,业务处理由备份中心顺利回切到数据中心。“这期间,我们实际切换时间和回切时间均比原计划提前20至25分钟,超过了预期目标。”麻德琼解释道。7月19日、20日两天,整个交行对外营业的网点和所有服务系统均正常运营。

7月21日是交通银行本次切换后全行全面正式对外营业的第一天,截止上午9时35分,交行与人民银行大额、小额支付系统,以及与其他第三方机构之间的外围系统都连接顺畅、数据传输正常。至此,交通银行备份系统切换运行成功完成。

中投证券从成立之初就重视信息化建设,更提出科技战略支撑概念,在新公司2005年成立后的7个月就完成集中交易系统,并在2006年底开始两地三中心的灾备体系建设。中投证券也最早在证券行业中明确提出两地三中心的灾备概念。2008年12月中投证券深圳同城双中心全面正式启用。

两地即北京和深圳,三中心即深圳业务系统运营总中心、北京灾备中心以及深圳同城备份中心。同城备份中心完全根据主运营中心1:1配备,平日两中心的系统是“双活”,既可以运营,也可以灵活切换。而北京灾备中心可实现数据备份以及30%的业务系统备份。当深圳两个数据中心都瘫痪的时候,由北京灾备中心接管。

同时在网上交易站点部署方面也采取了1:1:1的均衡互备模式,即深圳同城双中心的两个网上交易站点,以及由北京、成都、郑州、南京四地组成的异地群网上交易站点均具有相同的接入处理能力并互备。

挑战 CHALLENGE

对金融行业来说,确保业务的连续性,保证信息系统安全运行,成为IT部门的首要任务。

然而,灾备系统建设技术复杂、周期长,且投资大,各金融机构的灾难备份中心在投入大量资金建设完成后,却很难发挥应有的作用。“有备无换”、“有备不换”的现象非常严重,主要是由于设计问题和技术问题造成备份系统切换运行的风险极大,切换需要的时间远远超过两小时,甚至需要数天时间,不仅很难保证零数据丢失,甚至有造成数据全部损毁的风险。

为了降低灾备成本,同时提升灾备的效率,中信控股在2006年6月建成国内金融行业第一家集中银行、证券、信托、保险以及基金等金融业务,并采用部分外包商业模式统一建设的灾难备份中心。

“统一平台灾备中心是在充分考虑中信集团各金融子公司业务特点、灾备需求的基础上集中规划建设的,对统一平台及其各子公司核心业务应用系统,实施动态的、系统的、制度化的、以预防为主的灾难恢复管理,用最低的成本,达到可接受的灾难恢复等级。”左谈道。

该灾备中心的建设充分考虑到了中信集团在金融领域多种业务、金融子公司数量多的特点,统一部署,在基础设施建设、设备购置及安装、网络线路租用、日常运行维护等方面节约了近百万元。

同时通过采用灾难备份中心软硬件平台和业务应用系统自行负责,灾难备份中心机房设施(包括电源、空调等系统)和通讯传输系统采取部分外包的商业模式,最大限度地降低成本。

据了解,统一平台灾难备份中心采用操作系统级的MIMIX灾备技术,具有带宽要求低、对系统性能影响小、对原有系统改动要求少、技术成熟度高、技术复杂型相对较低的优势,能够实现数据实时同步,提供日志级的数据安全性保障。能够实现程序、用户等应用目标的实时复制,实现系统自动接管,RPO达到秒至分钟级。

在网络配置方面,中信控股采用了155M SDH电路作为联接主备数据中心的传输电路,具有安全级别高、数据吞吐量大、时延和误码率小、接入速率高等特点,并能实现语音、图像和数据的综合传输。“即便在生产中心后台服务瘫痪的情况下,可以通过生产中心与灾备中心之间的线路,提供前台交易与灾备中心后台服务的连接,并在业务上实现服务的连续性。”左解释道。

目前,按照国家及国际标准定义的灾难恢复等级分类,中信控股统一平台灾备中心达到了五级并近六级的灾难恢复水平,RPO达到分钟级,RTO达到小时级,数据量达到5T,并通过评审,达到《灾备系统评审国际标准》 (SHARE78)第五等级的容灾标准。

询问企业的CSO:

你企业是否已经建立两地三中心的灾备体系?

询问企业的CIO:

你企业灾备中心是否定期进行灾备系统切换演练?

2007年10月,国家开发银行成功地进行了全行范围内的灾难恢复演练。国开行的北京生产中心、同城灾备中心和深圳异地灾备中心同时启动,全国30多家分行共同参与完成了这次演练。这是我国银行业首次“两地三中心”一起配合实施、实际切换成功完成的灾难恢复演练。

“此次演练对国开行的核心业务系统、OA系统、网络系统、外围系统等进行了测试,对所恢复的业务进行功能测试,检验其是否达到了恢复策略中规定的恢复范围;检查IT应急预案的行动、流程、手册、信息是否正确;对参与演练的技术、业务和管理人员进行培训和实际操作演练,提高人们对于BCP的认知程度。”国家开发银行运营中心运维与灾备管理处处长罗剑波谈道。

交通银行灾难备份系统的成功切换运行在我国大型银行中是第一家,结束了长期困扰我国银行业灾难备份体系“有备无换”的历史,也提升了交行的核心竞争力。对此,麻德琼谈到:“此次演练,使得交行的信息安全保障水平大幅提高,同城备份中心的切换成功保证交行数据中心在灾难的情况下,可以在两小时内由备份中心全面接管,从而保证各项业务的连续性。”