/ 中存储网

银行数据中心灾备体系的建设与管理(兴业银行篇)

2020-02-26 00:09:46 来源:中存储

本文作者:兴业银行信息科技部副总经理   詹志辉,发表于中国金融电脑杂志。

商业银行数据中心灾备体系建设与管理是复杂的持续性系统工程,建设周期长、实施难度大,不仅技术要求高,而且考验管理水平,涉及科技战略、IT治理、运维管理等诸多内容。在过去的十多年里,国内商业银行的灾备建设取得了丰硕的成果。

兴业银行也围绕有关监管要求与业务连续性目标,不断优化数据中心灾备体系架构,并基于ISO20000、ISO27001等国际标准体系提升包括业务连续性管理在内的运维管理水平,为实现“百年兴业”的战略目标奠定坚实基础。

一、灾备体系建设历程

兴业银行数据中心灾备体系建设总体经历了数据大集中、主备中心、两地三中心、多活中心等阶段。

第一个阶段是数据大集中阶段。2000年兴业银行实现了全行数据与业务处理的整合集中,降低了基础架构的复杂度,加强了生产中心的统一管理,但与此同时也在一定程度上带来了系统集中的风险。

由数据大集中引发的风险轻则降低银行的服务水平、阻碍业务的正常运营;重则导致大范围、长时间停业,使银行面临信用危机以及不良社会影响。因此,在完成数据大集中后,兴业银行立即开始思考灾备中心建设,并最终选择上海作为异地灾备投产地点。

第二个阶段是主备中心阶段。2002年兴业银行开始进行核心业务系统灾备体系建设,2003年8月完成核心业务系统异地灾备系统在上海运行中心的上线运行。与之相对应的网络架构也由以福州机房为核心的单点星型网络提升为以福州、上海机房两地为核心的双星型网络。这一阶段上海运行中心作为异地灾备中心主要承担核心业务系统异地灾备环境的日常运维管理。

第三个阶段是两地三中心阶段。由于单纯的异地灾备系统在主生产站点发生灾难时仍存在一定的数据丢失的可能性,2006年兴业银行基于同城同步、远程异步的存储多跳容灾数据复制技术,实现了以福州中山机房为生产中心、元洪机房为同城灾备中心、上海江宁路机房为异地灾备中心的核心业务系统两地三中心灾备体系架构,确保在单一站点发生灾难的场景下实现数据零丢失。该架构于2006年获得了国家信息测评中心颁发的最佳灾难恢复和业务连续性管理奖。

2011年兴业银行新一代核心业务系统在上海张江机房的上线投产,进一步将与之配套的灾备体系架构提升为基于EMCSRDF/STAR的星型存储复制容灾架构,核心业务RPO时间缩短至1分钟。在以上海张江机房为主站点、外高桥机房为同城站点、福州中山机房为异地灾备站点的三点容灾架构中,任意一个站点发生灾难,剩下两个站点仍然可以保持数据实时复制的保护状态。在此灾备架构基础上,兴业银行还先后部署了贵金属交易、理财产品销售、个人网银、企业网银、手机银行、银银平台、同业财富、影像内容管理等重要信息系统。

第四个阶段是多活中心建设阶段。在由主备中心至两地三中心架构模式演进的过程中,构建一个安全、稳定、低成本,并且高可信、一体化、支持大规模营运的数据中心,成为兴业银行信息科技工作的重要课题。多活中心可以很好地满足上述要求,业务系统在多个生产中心运行,同时为用户提供服务,当某个生产中心的应用系统出现问题时,由另一个生产中心的应用系统来持续地提供服务。这种模式充分利用备份中心资源,避免了灾备模式下设备常年处于闲置状态而造成浪费。通过资源整合,多个生产中心资源实现共享,单个数据中心故障并不会影响整体业务的对外服务能力。

除了基于存储复制技术实现应用系统灾备外,兴业银行还积极探索实践多活中心建设工作,尝试部署了一些支持双活架构的信息系统。如柜面前端综合系统在福州、上海两地均部署独立的全套设备,可同时对外提供服务,当一地发生故障时,可实现客户端自行切换连接至异地服务器继续提供服务。

兴业银行认为基于数据复制的灾备模式只是信息系统灾备建设的一种形式或阶段,更高的目标是实现类似柜面前端综合系统、交易处理中心系统等在不同生产中心双活或多活部署,一方面提高信息系统的可用性与灾难恢复水平,另一方面也实现了硬件设备等资源的有效利用。

兴业银行同步推进作为多活中心建设基础的网络架构规划与建设,坚持“自我否定、持续改进、主动创新”的规划和建设理念,确保与业务发展共同演进,于2014年2月23日成功建成了全国金融系统首个跨地域三地三中心的环形网络平台,满足了信息科技五年规划提出的“构建多点接入的环形网络”目标。该平台将上海、福州、成都三个中心环接起来,使得各分行、各子公司能更加方便灵活地接入,同时环形的平台架构也使得网络更加可靠、稳定、安全。该平台的建成不仅为兴业银行一体化营运打下了坚实的基础,而且满足了集团化、国际化、综合化发展的需要。

目前兴业银行数据中心灾备体系建设仍处于多活中心的初级阶段,下一步的目标是有序开展应用系统改造,稳步推进多活中心建设,在灾备层面盘活现有各中心机房资源和功能,打造既可支持独立运行,又可并行多活,同时既满足灾备要求又达到柔性扩展、多样化部署服务需求的多中心部署模式。

二、持续提升运维管理水平

灾备体系的建设不仅仅是系统的建设,要确保灾备系统在突发事件发生时能发挥作用,离不开运维人员的支持与保障。自2003年以来,经历了12年的建设,兴业银行已基本建成了一支跨区域协同的运维队伍。

1.加强队伍建设

在队伍建设方面,兴业银行数据中心一直致力于打造统一的运维文化,开展新员工中心内部处室轮岗学习及网点柜面实习,定期组织员工跨区域跨岗位轮岗;通过组建全行网络专家团队、机房场地专家团队、协同办公专家团队、架构师团队,提供员工职业发展选择,促进专业技术提升;积极组织中心员工“家属日”活动,激发员工运维荣誉感,增强家属认同,落实员工关怀。

2.实践流程绩效考核

在2013年通过了运维服务管理体系ISO20000认证后,基于ISO20000,兴业银行数据中心设计了绩效考核方案,设立变更时效、高权限维护、运维服务热线、问题管理、服务连续性、配置管理、服务可用性七大考核指标,并建设了运维服务管理系统、运维调度管理系统、运维操作管理系统等信息系统。通过绩效指标的制定和信息系统的建设,一方面提高运维服务质量,另一方面与处室及个人绩效挂钩,充分调动员工积极性,提升工作效率。

3.创新运维服务内容

为充分发挥运维人员的专业能力在运维工作中发现问题、解决问题的作用,参与信息系统的优化、完善工作,数据中心作为兴业银行信息系统的最终价值体现单位,鼓励员工对日常工作中发现的问题进行深入分析,通过编写运维建议函促进软件质量提升与系统功能的完善,进而减少突发事件和故障,实现运维人员从“救火队员”到“消防安检员”的转变,提升了整体服务水平,降低了IT运营成本。

4.开展课题研究

2012~2015年,兴业银行数据中心在IT运维工作实践的基础上,结合ISO20000认证成果,通过全面推行规范化管理和流程指标考核,分别开展了股份制商业银行一体化运维管理体系、股份制商业银行IT营运能力管理体系、分布式多生产中心支撑平台及应用、新常态下商业银行IT营运共享中心体系研究与实践等课题研究。

三、数据中心面临的新挑战

一是多活中心的运营格局,从IT架构和营运模式层面上有效地防范了诸如自然灾害、恶意攻击与入侵等可能导致大规模、长时间停业的风险,但同时带来的数据中心内部各地域间运维文化、运维水平、管理手段不均衡等问题,成为数据中心面临的新挑战。在这个过程中,兴业银行数据中心的经验是通过包括轮岗等方式来加强队伍建设,同时也借助技术手段,解决管控和衡量方面的问题。

二是经过多年持续努力,兴业银行数据中心已经建成了运维调度管理系统、运维操作管理系统、运维服务管理系统、机房巡检管理系统、机房出入管理系统等运维管理支撑系统。这些系统对于满足运维管理需要,发挥了显著的作用,有效提升了兴业银行数据中心的管理水平,但这些运维支撑系统与配套制度的磨合还有待进一步加强,支撑系统也有待进一步优化改进,以适应精细化、自动化的管理需要。

三是数据中心面临突发事件多、岗位压力大、人员流动难的问题,实行运维人员的“退伍、复员、转业”机制,落实运维队伍的适度流动,保障人员结构的合理性,是保持数据中心运维战斗力的关键。

四、对于多活中心未来发展的思考

在IT服务流程标准化大潮下,商业银行纷纷借鉴ITIL最佳实践框架和ISO20000国际标准,建设适合自身特点的运维管理体系,期望运维工作效率和服务品质能够获得质的提升,但由于受到ITIL最佳实践框架和ISO20000国际标准两者自身涵盖范围和研究重点的约束,股份制商业银行在其基础上建设的多活中心运营格局的运维管理体系存在一定的局限性。

兴业银行近年来在IT运维工作实践的基础上,结合ITIL咨询及系统建设、ISO20000认证实施的成果,引入COBIT的IT治理理念,设计了包括多维跨区域的组织架构、以调度为驱动的运维控制流程、以发展规划为导向的四维衡量指标和支持跨地域运维的技术平台四个方面的一体化运维管理体系,以此来指导多活中心建设。

以银行为主体的金融集团将是未来银行的发展趋势,利用新兴IT技术对现有资源进行整合,打造“资源可共享、服务可计量、可计价”的IT营运共享中心,将是支撑集团化发展的重要方式。

未来,兴业银行多活中心的建设将基于云计算架构对资源进行池化,通过应用与基础设施松耦合设计实现资源共享,提升资源利用率和业务系统的可靠性;通过平台化的服务设计为业务创新奠定坚实基础;基于“利润中心”定位,推动共享中心可持续发展;构建共享中心一体化营运及支撑平台,并充分考虑云环境下的信息安全。

(文章来源:中国金融电脑杂志)