/ 中存储网

RTO和RPO - 最重要的两个灾备系统建设指标

2015-12-23 21:44:41 来源:中存储

衡量灾备系统建设的指标有许多:

RTO-恢复及时性

衡量业务恢复正常所需时间

RPO-恢复时间点

衡量业务恢复过程数据丢失的风险

RRO-恢复可靠性

衡量业务恢复的把握性

RIO-恢复完整性

衡量业务恢复之后数据的可用性

ROI-投资回报率

衡量业务连续性系统投资效率

其中最重要的有两个:一个是 RTO,另一个是 RPO

RTO(RecoveryTime Object)指灾难发生后,从系统停机导致业务停顿开始,到IT系统恢复,业务重新运营,中间所需要的时间,即为RTO。

RPO(Recovery Point Object)是指一个过去的时间点,当灾难或紧急事件发生时,数据可以恢复到的时间点。例如每天23:00进行数据备份,那么如果今天发生了系统崩溃事件,数据可以恢复到的时间点(RPO)就是昨天的23:00。简单描述就是“企业能容忍的数据损失量”,具体量化为“一天的交易数据”,”一个周的备份数据“等。

RTO 与 RPO 哪个衡量指标更合适呢?

在考虑采用哪个指标之前,IT 人首先要弄清楚一个基本概念,企业的容灾系统预防的是什么灾害,是多少年一遇的,能忍受多少损失,需要算出一个大概的成本,当然不一定很精确。

其次,无论企业容灾系统是采用冷备、热备、温备、还是磁盘备份,几分钟恢复业务和几天恢复业务效果是完全不一样的。企业需要明确对恢复时间的容忍底限是多少。

再从灾备本身的意义来讲,无论采用哪种衡量指标,最终目的是要能够很好地检验灾备系统的实用性能,否则就失去建立灾备的意义了。而灾备最核心的作用就是确保灾难发生后业务能够连续运行,交易中的数据完整保存,丢失越少越好。因此业务层面的恢复,企业要有一个底限。

参考世界范围内一系列灾难恢复经验,国家之间的差别非常大。比如在美国,政府是第一位的,警察局对数据的恢复要求特别高。而在中国,无论什么性质,银行始终是排在第一位的。

综合平衡

作为银行,除开展自身业务之外,更多数据来自上下级银行间的财务汇兑与结算。站在管理者的位置上,一旦灾难发生,最重要的是在尽可能短的时间内排除障碍,恢复业务,保证系统做到连续运行。因此,从这个角度出发,银行容许系统停滞的时间应当越短越好。选择 RTO 刚好合适。

但是,RTO 对成本要求太高,与回报似乎不成正比。企业资金不可能无限制地投入到一个灾备系统中。对于银行证券这样的联机交易事故处理非常紧密的金融机构而言,可能每一笔、每一单、每一分钱都很重要,所以都需要恢复。RPO 显然更为合适。

许多时候进行选择并不意味着非此即彼,这与现实婚姻中一夫一妻的限制还是有差别的。RTO 和 RPO 对银行来讲都很重要。RTO 越短、RPO 越新,银行面临的损失就越小,但这也意味着系统开发成本将会急剧上升。许多时候,最佳的容灾解决方案却不一定是效益最好的。反之亦是。如何去平衡这中间的关系,不仅是门学问,更像是艺术。

根据国际经验,在选择“你”还是“她”的时候,企业应当考虑灾难发生后会在多大层面上冲击业务,这涉及到企业形象,商业机密,信誉评级,品牌竞争力等等方面,各个企业的情况不同,要根据自己的情况选择合适的“对象”。灾难恢复的目的是业务连续进行,因此无论采用 RTO 还是 RPO,都要朝着这个核心靠拢。

RTO和RPO灾备指标介绍

实用工具:

灾难恢复计算器 ,一个RTO/RPO及宕机成本在线评估工具

引用资料:

http://www.zaibei.net/shuyu/shimeshiRTO_85.html

http://blog.sina.com.cn/s/blog_59388e440100oq52.html