/ 中存储网

国网公司容灾建设中的数据库复制技术介绍

2012-08-27 18:50:00 来源:《硅谷》杂志

《硅谷》杂志2012年第14期刊文称,随着国网公司信息化的逐步深化、扩展,信息系统的可靠性和业务连续性显得愈来愈重要,为实现各类系统可靠、安全的运行,公司采用“三地三中心”的方式建立北京、上海、西安三地容灾中心,公司各单位按就近原则接入共享,分别通过三中心实现信息数据级和应用级容灾。按照“继承发展、集约适度、规范明晰、安全高效”的原则,借鉴国内外先进容灾/数据中心经验,结合信息系统容灾的实际需要,建立适合国家电网公司信息系统容灾中心的组织架构和运行管理体系,实现规范化、流程化、标准化管理,提高容灾中心运行管理的规范性和质量,确保容灾中心安全稳定运行、确保容灾系统作用发挥。

1数据容灾的意义

在国信办编制的《重要信息系统灾难恢复指南》中,将灾难定义为:由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受,通常导致信息系统需要切换到备用场地运行的突发事件。典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等,还有技术风险和提供给业务运营所需的服务中断,如设备故障、软件错误、通讯网络中断和电力故障等等,此外,人为因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和恐怖袭击等。

数据灾备中心的成立可有效预防、化解和控制风险,应对突发灾难,保护数据不丢失、业务不中断,同时也是信息安全的重要环节。

2灾备中心主要工作内容

1)基础设施域:主要涵盖基础设施层面的服务,包括动力、消防、安防、环境;

2)网络域:主要涵盖了网络整体架构的各个层面,即物理层基础设备、网络协议与技术、操作系统服务、应用支持服务、服务质量、网络管理服务六个层面;

3)服务器域:主要涵盖服务器层面相关的服务,包括物理层、虚拟化层、操作系统层、应用支持层、系统管理、通道等服务;

4)存储域:主要涵盖存储层面相关的服务,包括物理层、SAN服务层、虚拟化服务层等;

5)安全域:主要涵盖安全治理和安全风险管理服务、基础架构安全和日常安全运维管理服务;

6)日常运行域:主要涵盖物理环境日常巡视;例行巡检操作服务,包括基础架构日常运行状况检查、机房环境日常检查、UPS健康状况检查;机房环境和系统的日常监控服务;

7)容灾专项域:数据备份服务、数据复制服务、数据恢复服务、灾难恢复计划支持服务、容灾验证支持服务、容灾演练支持服务、灾难切换支持服务和后勤保障;

8)运行管理域:主要涵盖服务请求、事件、问题、变更、配置、发布等流程管理服务。

3灾备中心数据复制技术整体架构

各网省电力公司使用新购或现有HP XP 24000通过External Storage虚拟化其它存储,虚拟化后的数据通过两种方式复制到容灾中心HP XP 24000,一部分数据通过Oracle Golden Gate软件进行数据库复制,另一部分数据通过CAJournal进行复制。在容灾中心通过SnapshotXP对上述两部分数据进行快照后,即可通过验证主机进行数据验证。

4基于数据库的复制技术

4.1Oracle Golden Gate工作原理

Oracle Golden Gate(以下简称OGG)软件是一种基于日志的结构化数据复制备份软件,它通过解析源数据库在线日志或归档日志来获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步。OGG可以在异构的IT基础结构(几乎包括所有常用OS平台和数据库平台)之间实现大量数据亚秒级的实时复制,从而可以在应急系统、在线报表、实时数据仓库供应、交易跟踪、数据同步、集中/分发、容灾、数据库升级和移植、双业务中心等多个场景下应用,同时它可以实现一对一、广播(一对多)、聚合(多对一)、双向、点对点、级联等多种灵活的拓扑结构。

4.2被复制的业务数据分类

在灾备中被复制的业务数据可以分为两类:结构化数据和非结构化数据。结构化数据指数据库的数据,包括数据库的数据文件、在线日志和归档日志等;非结构化数据指非数据库的数据,包括Domino数据、业务数据文件(如档案文件、银行对账文件、用户照片、合同)等。SG186的业务数据以结构化数据为主,大部分为Oracle数据,四大核心系统和一体化平台的核心业务模块Oracle数据库数据采用数据库复制技术来实现数据复制。据调研统计,业务数据以结构化数据为主,结构化数据所属数据库以Oracle为主,约占结构化数据总量的97%,基于此,容灾中心采用ORALCEGOLDENGATE(以下简写为OGG)来实现生产端到容灾端的数据库复制。

4.3OGG在灾备中心的实际应用

复制模式设计。可分为N:1和1:1模式,N:1模式指生产中心的多个数据库对应容灾中心一个数据库,每个生产库对容灾库中的一个schema,这样便于集中管理,但耦合度较高,容灾中心的数据库服务器发生故障时,会导致与之相关的所有逻辑复制链路中断,多条逻辑复制链路的容灾端都位于一台主机的一个数据库中,容灾验证较复杂,逻辑复制链路结构复杂;1:1模式则是生产中心一个数据库分别对应容灾中心的一个数据库,耦合度较低,逻辑复制链路之间互不影响,一个逻辑复制链路的故障不会影响其他链路,易于演练,容灾中心的数据库独立后,可以针对不同的数据库进行单独的容灾演练,演练过程不会影响其他的数据库,并且一对一的逻辑复制链路架构清晰,配置简单,便于运维管理和未来的应用级容灾。从耦合度、易管理性以及向未来应用级容灾的过渡考虑,选择1:1了模式。

高可用模式设计。可分为双机模式和RAC模式,双机模式指一个主节点,多个备用节点,数据库运行在主节点上,一旦主节点发生故障宕机,备用节点会立即接管资源组,对外提供数据库服务;RAC指多个节点同时对外提供数据库服务,一个节点宕机后,其他节点能继续提供服务。在高可用模式的设计上是比较灵活的,要根据生产端数据库的部署实际来设置复制软件的高可用模式,通常让复制软件的高可用性与相应的数据库高可用性保持一致。

5基于存储虚拟化的复制技术

5.1存储虚拟化的基本原理

存储虚拟化就是通过映射或抽象的方式屏蔽物理设备复杂性,增加一个管理层面,激活一种资源并使之更易于透明控制。它可以有效简化基础设施的管理,增加IT资源的利用率和能力,比如服务器、网络或存储。存储虚拟化是一种贯穿于整个IT环境、用于简化本来可能会相对复杂的底层基础架构的技术,其思想是将资源的逻辑映像与物理存储分开,从而为系统和管理员提供一幅简化、无缝的资源虚拟视图。

虚拟化后的存储就像池子一样,存储空间如同一个流动的池子里的水,可以任意地根据需要进行分配。通过将一个(或多个)目标(Target)服务或功能与其它附加的功能集成,统一提供有用的全面功能服务。典型的虚拟化包括如下一些情况:屏蔽系统的复杂性,增加或集成新的功能,仿真、整合或分解现有的服务功能等,虚拟化是作用在一个或者多个实体上的,而这些实体则是用来提供存储资源或服务的。

5.2存储虚拟化在灾备中心的实际应用

通过对比分析,国网公司最终采用的复制模式为异构模式,并采取多对一的复制关系。在异构模式中需使用一致性的技术手段来保障容灾端的数据是一致可用的,数据一致性的实现依据不同厂商的技术而不同,但至少在如下的两类场合中应使用该技术来保证容灾中心通过虚拟化复制数据的一致性:一是通过存储虚拟化进行数据日常复制;二是通过存储虚拟化,产生数据的快照(拷贝)进行数据验证。

其次考虑到各网省距离容灾中心较远,所以虚拟化复制链路使用IP链路,需转换FC协议到IP协议进行复制,同时考虑到安全、冗余和负载均衡,故使用了双FCoIP设备双链路,为进一步提高带宽利用率,FCoIP采用压缩技术。

5.3存储虚拟化复制的监控

监控存储复制功能主要通过Raid Manager软件来进行,对国网灾备项目,从生产端可以监控存储复制的状态,从容灾中心可以监控存储复制以及快照验证的状态。

生产端和容灾端各部署一台Raid Manager(简称RM)服务器,其中生产端RM服务器运行一个RM实例,控制CA源数据卷。容灾端RM服务器运行三个实例,分别控制CA目标数据卷、快照源数据卷(与CA目标卷为同一个卷)和快照目标数据卷。

6结语

国网公司三地容灾中心的成立在很大程度上提高了公司信息系统的可用性、技术创新和业务连续性,对数据复制方法的深入研究有利于下一步应用级灾备的开展。简言之,数据灾备就是数据的异地备份,当生产端数据因异常情况导致无法使用或无法恢复时,我们就可成功使用灾备中心的备份数据来快速恢复业务系统,当最终目标是建立安全、稳定、可靠的应用级灾备系统,有了数据级灾备系统的建设经验和基础环境,国网公司应用级灾备系统的最终建成将指日可待。