/ 中存储网

商业银行灾备体系建设方法分析

2010-12-17 11:49:24 来源:中存储

随着金融业务对信息系统的依赖性日益增强,商业银行越来越重视生产中心信息系统的高可用性,投入了大量资源和人员。但是,在灾备体系建设方面,一方面由于起步较晚,另一方面由于我国还没有发生过导致银行生产中心瘫痪的灾难性事件,所以各家商业银行的经验并不是很丰富。本文在分析并明确灾备工作定位的基础上,归纳设计了灾备体系框架,并介绍了建设灾备体系的基本步骤,以供参考。

一、灾备工作定位

对企业来说,造成关键业务功能或流程中断的时间超过企业最大容忍程度的突发事件,都可以认为是灾难。对商业银行来说,由于几乎所有金融业务都依赖于信息系统的支撑,所以灾备管理通常是指信息系统的灾难备份与恢复管理,目的是为了应对生产中心信息系统发生严重故障或者瘫痪,已不能在可接受的时间内在生产中心本地恢复,通常需要将信息系统切换到灾备中心运行的情况。

灾备管理、应急管理、业务连续性管理和风险管理是经常容易混淆的几个概念。根据巴塞尔协议,商业银行风险管理包括对市场风险、信用风险和操作风险的识别、评估、监控、缓释和控制。业务连续性管理主要针对可能导致业务中断的风险或者已经发生并导致业务中断的事件进行管理。应急管理主要关注对各种突发事件的应急处置,该突发事件不一定会导致业务中断,但一定会对业务造成影响。可见,业务连续性管理和应急管理都是风险管理的组成部分,并且业务连续性管理与应急管理之间存在一部分交集,这个交集就是对导致业务中断的突发事件的管理。灾备管理是业务连续性管理和应急管理交集中的一种极端特殊情况,是专门针对IT灾难的。上述各个概念之间的关系及举例如下图所示:

银行灾备

二、灾备体系参考框架

灾备体系建设是一项庞大而复杂的系统工程,必需在清晰、合理的框架指导下,协调有序地开展工作。灾备体系建设需要从管理技术、管理和业务三个方面进行,三者之间相辅相成,是灾备体系不可或缺的有机组成部分。

(一)技术体系

灾备技术体系包括恢复信息系统所需的数据、人员、系统、网络、环境和预案等,其中数据和人员是灾难恢复的前提条件,系统、网络和环境是灾难恢复的技术资源保障,预案是灾难恢复的行动方案。

1、数据备份

数据备份是灾难恢复的最基本前提,但银行普遍存在数据总量非常大的情况,所以必需按照成本与风险平衡的原则,对不同数据采取不同的备份策略,包括数据备份范围、备份周期、备份技术、备份介质、备份线路带宽、保存时间等。比如,对核心账务数据要采用实时的远程备份,尽量保证数据的完整性;对经营管理数据采用定期批量备份,容忍少量的数据丢失;对可以通过备份数据生成的其它数据不做备份。

2、运行和技术保障

运行和技术保障是灾难恢复的另一前提,因为人是实施灾难恢复工作的主体。灾难恢复后,灾备生产运行需要运行人员来操作,灾备系统的维护管理需要技术保障人员来支持。合理设置灾备组织机构和岗位,对运行和技术保障人员进行生产技能培训,都是灾备体系建设的重点工作内容。

3、备用数据处理系统

备用数据处理系统指备用的计算机软硬件及外围设备等。为节约成本,灾备中心的设备资源配置一般会低于生产中心,并且在平时可以用于软件开发和测试,只是在演练或发生灾难时,才进行资源临时调配,暂停开发和测试工作,全力支持灾备生产运行。

4、备用网络系统

备用网络系统的关键是要使灾备中心的网络架构能够支持应急生产,比如当生产中心的网络中断时,各分行可以通过参数配置的调整,改连灾备中心。备用网络系统与生产网络系统应该作为一个整体同时规划,否则灾难发生后再向运营商紧急申请线路,或者紧急调整灾备网络架构,将是非常耗时的工作。

5、备用基础设施

备用基础设施主要是指灾备机房、办公场地、生活设施等,其中最重要的是灾备机房。一般来说,灾备机房都是提前准备好的,并且一直在使用当中,用于支持开发和测试工作。所以,灾备机房的重点工作就是提前规划好在不同情况下的机房使用策略。

6、灾难恢复预案

灾难恢复预案是定义信息系统灾难恢复所需组织、流程、资源等预先制定的行动方案,用于指导相关人员在预定的灾难恢复目标内恢复信息系统支持的关键业务功能。预案应准确描述灾难恢复组织机构及职责,准确描述灾备基础资源的技术配置和恢复流程。

(二)管理体系

灾备管理体系主要是指组织机构的各个层面,在日常状态和灾难状态下的各种管理工作,至少包括以下方面:

1、灾难恢复组织机构

商业银行应结合本行机构设置的具体情况,设立灾难恢复组织机构,包括灾难恢复规划建设、运行维护、应急响应和灾难恢复等各阶段工作所需的人员,有关人员可为专职,也可为兼职,关键岗位的人员应有备份。商业银行可以参考《JR/T0044 2008银行业信息系统灾难恢复管理规范》,设置灾难恢复组织机构,包括决策层、管理层和执行层,各层之间分工明确、职责清晰。

2、岗位与培训管理

灾备中心的应急生产岗位应与生产中心对等,只不过可以按照人员复用的原则,由灾备管理人员、开发测试人员或系统运维人员专职或兼职担任。对不同层次、不同部门的岗位,在灾难恢复策略规划、系统建设与运维、预案制定、演练和更新维护等不同阶段,应按照不同的培训目标,安排不同的培训计划。

3、灾难恢复预案管理与演练

灾难恢复预案要长期保持有效性,必需在灾难恢复策略发生变化、演练发现问题、生产系统发生变更、人员出现调整等情况下,及时修订维护预案,做好变更管理、版本管理,以及发布管理等,确保合适的人员及时获得最准确、最合适的信息。演练验证灾难恢复预案有效性的最佳手段。演练管理就是要对演练的计划、场景、人员、过程、总结评估和后续完善调整等进行全面管理,通过演练来培养灾难恢复团队面对复杂环境的信心和冷静心态,验证灾难恢复能力,改进灾难恢复流程,发现并纠正灾备体系中的缺陷。

4、灾备中心日常运维、灾难响应与重续运行管理

灾备中心应随时做好接替生产中心的准备,因此,必须象生产中心一样,对灾备中心的系统、网络和环境等基础资源进行运行维护,按照备份策略按时完成数据备份,完成灾备系统与生产系统的同步。当灾难发生后,灾难恢复组织机构的各层人员立即响应,在指挥报告、协调、联络、保障等工作机制的保障下,按照灾难恢复流程步骤,一步步地恢复信息系统及其支撑的关键业务功能。在生产系统成功切换到灾备中心运行后,要按照生产中心的规章制度、操作流程、技术规范来管理,保障生产系统安全稳定运行,直至生产中心重建并恢复了生产运行能力。

5、外部资源管理

外部资源主要指商业银行的合作伙伴、服务商、设备商和外协人员等。当发生灾难时,可能需要这些外部资源的支持才能完成灾难恢复,比如,从设备供应商紧急采购灾备生产设备,从电信运营服务商紧急租用通信线路,从银联借调交易流水等。因此,需要与这些外部资源建立日常联系或签订协议,并不定期地测试其支持能力,以保证在灾难恢复期间,外部资源可以提供有效的支持。

(三)业务体系

业务体系主要指业务恢复预案。在极端灾难情况下,业务处理流程可能会与正常情况下有所不同,比如无卡取现、无证挂失等。因此,要制定灾难情况下的业务管理制度或操作流程,使得业务可以依法办理;要提前思考灾难情况下的业务流程变化,并改造相应的信息系统或做好相应的技术准备,以适应新的业务流程;另外,有些通过技术手段不能解决或者非常难以解决的问题,可能需要从业务角度寻找解决方案。

三、灾备体系建设步骤

灾备体系建设是一项复杂的系统工程,必须按照一定的策略,在灾备体系框架的指导下,由简单到复杂,从小范围到全局,优先为关键信息系统建设灾备系统,有计划地不断建设和完善灾备体系。具体步骤如下:

步骤1:制定灾难恢复策略。

极端的灾难情况属于极小概率事件,我国商业银行在当前发展阶段,尚不可能为应对这种极小概率事件而安排与生产中心对等的成本,所以必须按照灾难恢复所需的资源成本与灾难可能造成的损失之间取得平衡的原则,即成本风险平衡原则,制定灾难恢复策略,不同的业务功能采用不同的灾难恢复策略,包括布局模式、资源保障策略、业务恢复范围和恢复时间目标等。灾难恢复策略是灾备体系建设的指导方针,应由商业银行的风险管理部门、业务管理部门、技术管理部门、资源管理部门等共同参与制定。

步骤2:按照灾备体系框架,从技术、管理和业务三个方面建设灾备体系,实现灾难恢复策略。

在技术层面,需要建设或租用灾备机房,培养运行和技术保障团队,搭建数据备份系统、备用数据处理系统和备用网络系统,制定灾难恢复预案等。在管理层面,要成立灾难恢复组织机构,制定并执行灾备管理制度。在业务层面,要制定业务恢复预案,并且要特别注重在没有信息系统支撑的情况下如何开展业务,以及如何从业务操作上配合信息系统恢复,比如手工补录数据。

步骤3:组织灾难恢复演练。

通过坚持不懈地组织不同形式、不同深度、不同范围的灾难恢复演练,检验灾难恢复组织机构、灾备系统和灾难恢复预案的有效性,并不断完善和改进。演练可以是桌面演练、模拟演练、实战演练等多种形式,可以是系统级演练、应用级演练和业务级演练等不同深度,可以是计划内演练和计划外演练等。

步骤1到步骤3是一个循环迭代、不断完善和演进的过程。如果灾难恢复策略进行了调整,就需要重新审视和调整灾备体系,重新组织演练,并对灾备管理制度进行适应性修订。

四、小结

灾备体系作为生产运行体系的重要组成部分,是商业银行全面风险管理体系的重要一员。在商业银行竞争日趋激烈的今天,构建完善的灾备体系成为了提高银行核心竞争能力的重要手段之一。正所谓“居安思危,思则有备,有备无患”,商业银行灾备体系建设工作任重而道远。

作者:中国农业银行信息技术管理部