/ 中存储网

灾备演练:宁夏银行敢为天下先

2010-07-28 13:13:05 来源:中国存储网

“请大家多提意见,如果有什么问题,也可以随时提。”在宁夏银行核心系统灾难恢复演练现场,这是作为宁夏银行信息技术部总经理的王春说的最多的一句话,在这场前后不过一个小时的灾难恢复演练上,王春将他从全国各地十多家城市商业银行、农村商业银行等兄弟单位请来的来宾以及在座的媒体,都当作老师一般对待。

用王春的话说,就是“请大家来,就是要让大家多提意见的”,他表示,与宁夏银行一样,众多的城市和区域性商业银行“现在才刚刚开始”做灾备系统、应用业务连续性技术,既然宁夏银行是实施完成的第一家,就应该请同行们来看一看,提提意见,这也是为了“把运营做到最理想的状态”。

随着国家政策的大力扶持和倾斜,以及区域性商业、经济和国计民生的需要,商业银行在过去的几年正在经历飞速的变化,包括宁夏银行在内的一大批原有的城市商业银行、农村信用社在合并整合借力证词的基础上,不仅扩大的业务范围、提升了经营水平,更开始着眼省外,开始了跨省经营,从银川市商业银行到宁夏银行,从科技处处长助理到信息技术部总经理,王春与宁夏银行在过去的十年,都经历了飞速的变革。

但正像宁夏银行在变革中求生存求发展一样,宁夏银行的信息系统建设也正在经历着变革与飞越,2010年4月,在短短3个星期的施工期和测试期之后,宁夏银行与飞康公司合作,采用持续数据保护(CDP)技术,建立了本地和异地的一体化、分层次的灾难恢复体系。

王春表示,随着区域性商业银行的跨省发展,实施灾难备份系统已经势在必行,宁夏银现在实施成功之后,实现了宁夏银行所提出的“提升业务连续性,提升业务管理水平”的战略目标,做到了核心系统的灾难恢复的“全范围覆盖”。

区域性银行也做灾备:业务发展催生灾备需求

4月24日,宁夏银川,在宁夏银行的大会议室内,一场模拟数据库瘫痪与数据中心火灾的灾难恢复演练正在举行,作为信息技术部的总经理,王春正是这场演练的主持人和“指挥官”。

虽然实现已经进行过多次的彻夜不休的演练,但王春和他的同事们仍然难掩心中的紧张:信息技术部门的同事上台给王春送了一瓶矿泉水,但狭小的演讲台已经无法放下,这却让王春和他的同事都有些紧张,在尝试了几次之后,这瓶矿泉水最终还是没能留在主持台上。

王春的紧张是有道理的,在这以前,敢在真实的生产系统上进行灾难恢复切换演练的银行本就不多,而敢这样做的区域性商业银行,一下子又是“800公里的异地实现灾难切换演习”,直到宁夏银行之前,在这个榜单的上的成绩还是一个大大鸭蛋——如此危险的如走钢丝般的生产系统切换演练,在一般的CIO眼里,无异于“自寻死路”,稍有差池,其后果是没有任何一个人能够承担的了得。

宁夏银行信息技术部总经理王春

更何况,宁夏银行不过是一个资产总额不到400亿,年利润仅3.96亿元的区域性商业银行——即使是区域性商业银行中,这样的规模也难以数一数二。

长久以来的思维定势,以及与国有商业银行、外资银行几乎没有可比性的IT投资,让宁夏银行这样的区域性商业银行与灾难恢复系统几乎无缘,在有限的经费下支持现有的业务增长并尽可能利用高可用性技术保证系统运营,是此类银行多年来的一贯做法。

但在2006年,王春仍然带领他的信息技术部团队,在2006年基于磁盘阵列的复制技术,完成了主存储备份存储的同步,提升了原有的双机热备使用共享存储的架构的数据安全性,王春说,那时候他就在想,什么是适合宁夏银行的灾难备份,宁夏银行应该防范什么样的风险。

王春对于宁夏银行到底应该如何防范风险,如何应对可能发生的影响业务的灾难,已从那时起勾勒出了一个初步的模型,但当时,尚未有异地分行,且规模化业务尚在发展初期的宁夏银行,还没有到考虑灾难备份,尤其是异地远程灾难备份的岔路口。

随着2009年宁夏银行在西安设立分行,王春的未雨绸缪终于有了结果,他也终于等来了一个契机。

“后来人民银行批准了我们在西安设立分行,可以跨地域跨省设置机构,异地灾备变得具有重要意义,这时候异地容灾具有意义,也有相应的条件了。”一直以来都在考虑灾难恢复这件事情的王春感到了机遇,他看到为宁夏银行建立一套更行之有效的灾难恢复系统的机会到了,而现在,宁夏银行也确实有了迫切的需求——已经建立的西安分行亟需保护,待建的天津、兰州分行同样需要灾难备份,而此时,宁夏银行的业务规模和IT系统较四年前有了极大的发展,走向建立完备的灾难备份系统成为必然。

但王春也意识到,有些事情不能够勉强,这个朴实的西北汉子相信,首先要保证正常运营的机制是不是健全,然后再在这个基础上再谈灾备,王春说,当时建立系统的时候,说是灾难恢复,但其实,核心的目的是保证业务连续性,而非担心那些看得见却摸不着的自然灾害和地球灾难。

王春自己的做法:不跟四大行搞攀比

“以前灾备系统都是四大行(国有四大商业银行)做,现在(我们)采用适合自己的技术,自己也能够做到,(保证)最低的投资和运营成本。”王春表示,采用更经济实惠、部署更快的CDP解决方案,对于宁夏银行来说,其实完全能够达到保证业务连续性要求的条件,四大行有四大行的做法,宁夏银行有宁夏银行自己的做法,“不跟四大行比,把运营做到最理想的状态就好了。”

但在提到建设自己的灾备系统,尤其是选型的时候,王春却闭口不提“灾难”二字,他说,这是因为他自己觉得,大的灾难也就是占整个IT系统风险的百分之一二,过分注重大型灾难,“是把99%的投入去控制1%-2%的问题。”

随着多年的研究和不断的学习,宁夏银行对风险的认识有了比较清晰的概念,王春认为,数据风险的种类就是三种:硬件设备故障、逻辑故障、灾难事故,但在王春的概念里,这三类风险,最常见的就只有前面的两种。

“在我的概念里,“灾难”最常见的就是前两种,从硬件设备故障来说,硬件设备、人为因素,这些都基于使用环境决定,日常我们要去巡检、维护,保证正常运营,但是设备故障总是在所难免,这占到一半。”此外,就是逻辑故障,类似数据库崩溃、数据链路故障这些问题,也能够占到IT系统风险的一大半,这两项加起来,基本上就是宁夏银行所面临的所有问题。

 

因此,王春认为,宁夏银行所需要的就是全面防备前两种风险的技术——能够解决设备故障和逻辑错误的风险——同时实现宁夏银行所承担得起的灾难备份,宁夏银行要的并不是能够和四大行或是“行业领先”攀比的灾难备份系统,而是一个切实有效防范最大可能发生的日常灾难保证业务连续性运行的灾备系统,于是,飞康的CDP解决方案走进了王春的眼中。

王春说他只有简单的两个要求:“占用系统资源越少越好,发生故障切换越快越好。”

在谈到飞康的CDP解决方案时,王春只是轻描淡写的说,能够提供CDP技术的在这一次项目招标中有很多家,CDP并非是高不可攀或是什么神秘的技术,谈起为何做出最后的选择,王春说,“产品的功能还是有差别的。”

显然,从4月24日那天的情况来看,飞康CDP以实际的表现,应该是令王春和在座的十几家区域性商业银行的来宾满意了。

演练实况:从紧张到轻松的一个小时

“演练是对灾备的最高的要求。”王春在接受媒体采访时这样表示,这个西北汉子却毫无自夸的表情,在灾备演练几个小时前接受采访的王春,当时还显得略有些紧张,虽然偶尔会因为媒体的某个问题而眼前一亮,但很显然,最让他牵挂和放在心上的还是灾备演练的现场。

在演练开始前,王春详细的介绍了这次演练的两种“突发情况”:数据库系统瘫痪和数据中心发生火灾——前者模拟宁夏银行生产中心数据库系统发生崩溃瘫痪的严重故障,测试根据需要启动应急响应流程,进行本地的数据库系统恢复;后者模拟生产中心发生一场大火,测试根据应急流程进行从银川到西安的异地切换。

把真实的业务终端搬到演练现场,使用真实的数据和系统操作,这都是很少见的

从王春到演练的技术小组、观察组、业务小组、跟踪记录小组到文档管理小组,宁夏银行将这次演练彻底当做真实突发的事件而非“模拟测试”来处理,甚至连测试用的都是真实的生产环境:真实的数据库、真实的在线系统、真实的存取款记录和真实的柜员终端。

虽然火灾场景的恢复进度流程与本地数据库瘫痪略有不同,但整个过程基本上都分为:接到灾难宣告、CDP数据提取、主机系统加载、数据库启动、业务验证等阶段(火灾模拟则增加了灾备网络检查和前置变更环节),在整个演练过程中,从业务终端发现异常,到管理中心提交报告,再到冷静的操作与系统切换,一切都显得不慌不忙,就好像是一场平常的模拟。每个在座的人却都知道,这样一场演练,其实颇有些“不成功便成仁”的味道。

演练中,技术组的同事们却显得颇为轻松,但在之前的几天,他们几乎是每个深夜都在做准备工作。

在平静的演练下其实在座的人也都发现了三点不同寻常的地方,第一是全程全部是宁夏银行的员工在操作,全无来自飞康公司的协助;第二是全部步骤都衔接畅通,流程化管理十分有效;第三点当然是速度,整场演练,两个场景加起来不过用时10分钟:

第一场数据库瘫痪演练,24日15时53分开始,至57分便已成功。

第二场火灾演练,24日16时24分开始,至30分,文档管理组便已记下成功切换的时间。

演练成功的证明,进度记录表

两场演练中,伴随着IT人员通过拖曳鼠标,选择数据恢复点,将数据恢复到系统运行的某一个正常时刻,两场演练的时间加起来甚至都不到20分钟,如果刨除行政请示、故障判断,用来恢复的操作时间,甚至在几分钟内便可完成——整个过程就像是重放一盘录像带般简单:选择时间,倒带,然后正常播放。

事实上,在第二场演习成功之后,王春和他的团队在不经意之间,还完成了另外一个创举:宁夏银行的这场演习是区域性商业银行中,第一个具备数据损坏修复演习场景的——演习中本地数据中心的数据库已然崩溃数据中心已经烧毁——这在整个灾难备份的应用领域,曾经都是一个难题,而现在,王春和宁夏银行的IT团队竟然在数据库崩溃,数据损毁的时候,仍然成功的恢复了数据以及业务系统——你能希望的当然是拥有这样的一个保证业务连续性的系统。

后记:灾难恢复 不复杂但要用心

人们不禁在问,此前从未做过灾备演练的宁夏银行如何做到这三点?王春在采访前其实就已经“泄了密”。

“演练全部是自己的人员完成。”在采访时王春透露,“体系结构很简单,其实就是个软件,不是复杂的硬件。”王春说,飞康CDP归根结底就是去操作一个恢复软件,做些设置,做些操作,其实非常简单,经过培训,所有的流程都能够由宁夏银行自己的人员完成,根本没什么难度。

对于流程化管理,王春表示,整个灾难恢复的流程,都是他和信息技术部的同事们不断完善整理出来的,要“用心”的根据宁夏银行的情况,整理出适合自己的流程,然后才能够在关键时刻不出问题,“灾难恢复归根结底是个流程问题。”王春是这么觉得的。

而对于切换的速度,王春在采访时由于还未进行演练自然无法回答,但具备了独立灾备切换能力的宁夏银行团队,以及流程化严格约束的管理,再加上成熟的CDP业务连续性技术,答案不过就是“一层窗户纸那样薄”。

美国飞康软件公司中国区技术总监颜军,演练中他基本上是“袖手旁观”偶尔解答几个技术问题

此外,值得注意的是,在有限的投资下完成的此次业务连续性系统建设,其基于的是一套完成的、能够在统一的管理平台下完成的灾难恢复操作,而非复杂和多管理界面的烦冗程序。尤其是,这套系统在平时完全可以替代IT系统中的备份系统,成为企业备份和容灾系统的一体化替代解决方案。与此同时,完成本地和异地两个现场演练的宁夏银行,也证明了飞康CDP是一套“能够同时解决本地和异地的不同容灾需求”的解决方案——从备份到容灾,从本地到异地,业务连续性从此有了一整套分层的具有高可用性的信心保障。

宁夏银行的这样一次演练,看起来虽然只是十几分钟内的事情,但是却说明了一个非常重要的问题:对于区域性商业银行来说,灾难恢复并非遥不可及,而技术也并非是万能的能够解决一切问题和需求,完成一个合格的灾难恢复系统,除了技术,关键是要用心,从人员培训、流程管理、成本考量、系统实施,以及灾备演练上,都要投以百分百的努力和认真,而这一点,正是王春和宁夏银行信息技术部的同事们最为强大的地方。

虽然他们并没有如四大行那样多的资金,虽然他们仅仅只有23个人,虽然宁夏银行并没有采用神坛上最顶级的技术,但宁夏银行仍然完成了一个符合其要求并真实可靠的灾难恢复系统——成功的灾难恢复系统,除了技术、资金、人力之外,最需要的,还是那一份责任心以及独立的思考。

宁夏银行(原银川市商业银行)是银监会批准设立的由宁夏回族自治区两级政府和企业组建的一家股份制商业银行。成立十多年来,在各级党委、政府的支持下,在社会各界的关心下,宁夏银行始终坚持“服务地方经济、服务中小企业、服务城乡居民”的市场定位,以支持地方经 济建设为己任,为促进地方经济社会发展做出了突出贡献。

宁夏银行为适应各项业务的迅猛发展,支撑跨区域经营战略的顺利实施,保障核心业务系统安全、稳定、持续地运行,增强抵御灾难和防范系统故障的能力,2009年宁夏银行将应用级灾备项目建设列入IT建设计划,并且灾备中心选择在了800公里之外的西安。经过谨慎、严格的市场和技术调研以及对于金融系统灾备建设以往经验的深入分析,宁夏银行将飞康CDP技术的精准任意时间点定位、分层次本地/异地双重恢复体系、全部灾难的防御能力、设备故障的业务不停顿能力、远程带宽精简技术引入到灾备体系的技术架构中。随着2010年4月24日实战演习的成功,宁夏银行容灾项目的实施画上了圆满的句号。

内部故障比大型灾难更难防御

宁夏银行在灾备系统的筹备过程中认识到:大灾的防御固然重要,而高发的故障防御更是不能疏忽,这一点多家银行教训深刻。如果建立异地灾备体系之后,灾备系统得不到有效利用,故障发生仍然只能听天由命,这样的灾备体系实在是巨大的浪费。宁夏银行在经过多方考察后(对于多项灾备技术进行了考察),认为在灾难防御范围上唯一能够达到全面灾难和故障防御的只有飞康CDP持续数据灾备技术,这一技术不仅能够防御大灾,而且能够将存储硬件故障和逻辑故障在本地就可以轻松修复(不会出现数据丢失),其独到的历史录像技术达到了精准定位历史轨迹的程度,在各种灾备技术中令人耳目一新。

利用飞康CDP实现本地、异地分层恢复体系

针对宁夏银行的核心业务系统灾备项目,飞康设计了一套灾难和故障防御并举、用户行使恢复地点选择权、任意历史点恢复、用户自行管理的集备份与远程容灾于一体的综合数据保护解决方案。在生产机房通过部署飞康CDP管理器网关,对于核心业务系统提供本地的持续数据保护。在应用级灾备的机房,同样部署飞康CDP设备,形成了异地的连续数据传输。一旦发生生产系统故障,用户可以选择在本地立即恢复运行(一般在10分钟以内),也可以选择利用异地中心的数据进行应用级恢复。尤其是存储系统在发生故障时,甚至于业务系统都不会发生中断,彻底解决了存储故障这一最为严重的“杀手”,在出现数据库瘫痪时,只需要启用飞康技术的“录像”精细化回放技术就可以在本地大幅化解风险,恢复系统。

在建设过程中,飞康CDP持续数据灾备技术全部实现了其表述的各项特征,例如利用带宽精简技术达到了4M带宽的灾备复制,利用录像定位技术实现了数据库损坏、丢失等各类逻辑故障瞬间修复的能力,差异比对技术、快速写缓存技术、存储设备故障业务不中断等等,均得到了充分的验证。整个项目的实际实施速度极快,有效实施仅为2天。

宁夏银行业务连续性架构

灾备系统异地实战演习成功

为有效验证灾备系统的各种防御水准,宁夏银行在生产系统上大胆采用了不同的灾备场景(数据库瘫痪、火灾)进行了800公里的异地切换和本地应急的实战演习,有效地验证了灾备技术有效性和应急体系的完备性。2010年4月24日,在其科技人员自行的响应体系下,数据库瘫痪和火灾的不同灾难场景,灾备应急全部成功,异地切换、本地恢复全部成功,将金融系统灾难恢复体系推向了新的高度。

行业

金融业

客户背景

宁夏银行(原银川市商业银行)是银监会批准设立的由宁夏回族自治区两级政府和企业组建的一家股份制商业银行,为自治区经济发展做出了重要的贡献。

IT 环境

 IBM AIX UNIX

 Informix

 EMC DMX800

问题与挑战

 业务压力大、数据量积累多且增长迅速

 故障的防御能力欠缺,出现故障无法实现快速恢复,无法保证业务持续运行

 没有异地灾难快速恢复系统,无法防制大型灾难

飞康解决方案

FalconStor CDP

 持续数据本地保护

 持续数据远程复制

 录像历史轨迹回放技术

效益

 多历史点数据保护与快速恢复,使管理员可以从容应对数据库逻辑错误、崩溃、人为误操作、病毒黑客等诸多问题,有力保证业务连续性

 异地灾难快速恢复系统,全面防御各类大型灾难。

 存储设备遭遇灾难时,确保业务不停机

 录像级别的恢复能力,可以将数据恢复精细到任何一秒钟

 管理简单,备份策略灵活,大大简化数据管理、数据备份、灾难恢复三大工作的流程和时间