应用：考虑灾备方案需要注意的一些原则-中存储网

2011-05-05 22:42:56 来源：中国存储网

对于一个公司来说，在一个可以接受的时间范围内恢复数据的能力已经成为了一个关键的问题，并且也越来越成为一种公司日渐依赖的信息技术。

现在，对于任何规模的企业、公司来说，在一个可预见的时间范围内准确、高效的恢复危机应用都是他们非常关切的问题。但是有一些客户看到灾难恢复(DR)就像是为数据提供的一个昂贵的保险，所以总想试图采取一些捷径，省下几美元。

为了避免在这上面削减预算而使自己成为受害者，我们在作灾难恢复的策略和位置的挑选时一定要围绕着几个基本原则。这样我们的管理者才能够清楚的看到一些预算的节省对业务带来什么样的影响，从而决定一些投资的使用。

不同等级的容灾标准

恢复时间目标(RTO)和恢复点目标(RPO)是决定DR级别的两个关键指标，它可以确定所需的业务流程和应用。并且这两个指标和所要投入的成本是反比的：如果你想让RTO和RPO接近于0，那么你就需要投入更多的预算，如果恢复时间可以是几天或者几周，那么成本就将会大大减少。

确定必要的RTO和RPO指标是满足业务需求所必须的，这样才能确定正确的DR级别以避免浪费更多的投资。RTO和RPO取决于业务流程和应用的影响分析，如果业务系统变得不可用，那么将带来多少业务价值的损失和预期的财务影响。

很显然，不同的业务流程和应用间有着不同的RTO和RPO要求。惠普(HP)公司的业务连续性和恢复服务全球服务部门经理乔治弗格森说：“即便准时生产的最大限度在15分钟以内，其对市场的影响也是要按天计算的”。

确定RTO和RPO将是一个反复的过程，因为两个相互竞争的力量：可用的预算和恢复目标的要求。“应急服务的挑战，如灾难恢复能够在可用的预算和维持业务需求之间找到正确的平衡点 ”。

通过业务影响来分析和确定RTO和RPO指标，这样IT管理者们就可以制定实施办法。灾难恢复站点的专业术语可能会让人感到混乱—如hot site, warm site 和cold site都是DR中常说的术语，但他们用在不同的环境中。

下列定义方式是在美国比较普遍的术语解释：

Hosted site.由专用设备组成，能够满足RTO的RPO指标接近于零的要求。

Hot site.通过专用设备实现共享要求，两端实时复制;典型的RTO为几个小时。

Warm site.使用共享的设备，但没有专用的存储，依靠数据的备份的恢复;RTO根据使用备份方法的不同可能由几小时到几天不等。

Cold site.一般来说，在数据中心有一个专门的空间，有其自己的冷却系统，电源和连接，随时等待设备的请求;RTO通常是一个星期或更长时间。

为不同的应用制定各种各样不同的DR方式选择是非常常见的。例如，为有近实时容错的关键任务的电子商务应用选择hosted site的方式，也可为低端的不那么重要工程应用选择warm site基于磁带的恢复方式。还有很多应用环境下采用混合灾难恢复的方式。

因此，灾难恢复所提供的服务级别往往能够映射出其RTO和RPO的应用指标要求。

Hosted site：最高级别的灾备保护

Hosted site提供的第1级为最高级别的DR保护，通常是用于应用的RTO和RPO要求接近零的时候。第1级别的DR保护有个特点是在灾难恢复点有一个专用的设备。因此，它随之带来的是几种级别中最高的价格，通常只针对最关键任务应用。

由于在灾难恢复端的设备要专属于一个客户公司使用，所以对设备的使用限制也非常少，即便是在服务外包的情况下。

在所有的灾难恢复的各种方式中，最好的方式莫过于公司本身拥有灾难恢复站点并且完成其维护工作。应为第1级别的灾难恢复方式需要专用的DR设备，所以相比外包服务的方式，由公司自己来构建会节省大部分的预算。

“如果你有熟练的工具和较强的管理人员，那么自己构建第1级别的DR系统是非常节约成本的”。

由于主站点和DR站点的应用是密切联系的，生产和DR设备通常是统一管理的。

如果容灾位置选择由第三方机构来提供，那么主站点和DR站点的管理都由DR服务商提供就不是不多见了。作为一个例子，思杰系统公司决定将其主站点的HP XP12000 光纤网络和DR站点全部外包管理。虽然生产的光纤网络实际物理位置在思杰系统公司位于迈阿密的主数据中心，但是DR站点却由惠普公司进行管理。

思杰公司信息安全管理和业务连续性主管迈克尔艾默生说道：“我们的SAN存储在迈阿密是外包给惠普公司管理的，他们拥有自己的SAN和管理软件，包括两地之间的Continuous Access复制软件。

针对文件的灾难恢复方案

文件和文件夹的灾难恢复(DR)一般是相对来说比较简单的灾难恢复应用，因为您不需要考虑像应用一致性、传输可靠性以及应用从属关系等问题。基于文件内容的灾难恢复我们面临的挑战往往是文件内容的数量和大小。公司可能有几十或数百TB的档案资料，以便确定哪些需要列入DR计划可能是一个艰巨的任务。

一些公司已经开始转向数据分类工具来确定有价值的数据，从而适当的去划分DR级别。这些数据的分类可以利用各种工具：

存储资源管理(SRM)工具通常通过元数据进行分类文件，如文件类型，大小和修改日期。举一个例子，惠普(HP)有限公司存储必备文件系统浏览器模块，它能够通过属性来归类各种文件。

存档工具内置的分类功能，往往超越元数据分类的功能，它包括全部内容索引。赛门铁克公司的企业库和归档产品的C2C系统有限公司就是例子。

数据丢失预防工具检测和防止未经授权的信息传送，包括数据分类能力。他们都可以从McAfee公司、RSA(EMC安全事业领域)和赛门铁克公司等等的产品中看到这些功能。

独立的分类工具，这些工具软件可以在Abrevity公司、Kazeon Systems公司、 Njini公司和Permabit科技公司的产品中看到，它们可用于分类一些数据来确定恰当DR方式。

Hot site：共享设备实现灾难备份

如果恢复时间要求在几个小时内（而不是分钟级别）是可以接受的，一个可能hot site的灾难恢复方式是适当的。

hosted site和hot site间最大的差别在于是否使用共享设备，如服务器和外设这样的基础设施部件。存储是专门用来在生产站点和DR站点间事实复制数据的设备。

由于很多设备在是由多个用户共享，所以hot site方式的灾难恢复花费远低于hosted site的方式。hot site和warm site通过外包服务要比他们自己构建灾难恢复系统花费更少的成本，因为他们可以共享设备，这种容灾服务依靠的就是一般情况下，不会所有的客户在同一时间都发生灾难。

另一方面，使用共同设备的方式让hot site的灾难恢复提供不够灵活，因为客户是有限的设备提供灾难恢复服务。虽然一些服务提供商可能还会有一些有限的可选设备。

“大约90 %的时间我们都在使用共享设备，其余的时间我们也都在与客户打交道，让他们的工作正常运转 ” 备份、存储和灾难恢复服务的提供商恢复点系统的主管马克兰格说道。较大的服务提供商可能不太灵活，所以共享设备方式下选择一个hot site方式还是选择warm site方式的提供商很可能成为一个决定性因素。

使用共享设备方式的另一个顾虑是在灾难发生的时候，客户能够使用共享设备的时限是多长。每一个服务提供商提出的时限各不相同，但一般介于30天到90天。

“在他们需要调出数据或者将他们的灾难恢复系统迁移至cold site方式之前，客户可以使用共享设备的前60天 ”一个大型的、为多个数据中心提供服务的服务供应商(像IBM)的兰格说道。

IBM系统与技术集团业务连续性战略和规划部高级顾问约翰星说道：“我们不会对这种时限进行限制，因为我们可以改变其工作流到其他数据中心 ”。为了避免不愉快的意外发生，请认清阅读协议的每一条款，看清其条件和约束限制，在选择一个DR服务之前，你要把这份协议当作一个重点来对待，毕竟这种灾难恢复服务可能要提供好多年。

　Warm site：基于备份的灾难预案

与hot site相反的是，warm site方式依赖于备份恢复系统。因此，它并不需要专门的存储，而是可以利用不太昂贵共享存储。换句话说，warm site方式的所有组成部分（包括存储）可以为多个客户提供服务。因此，绝大多数考虑采用hot site方式的用户也适用于warm site方式。

在过去，hot site和warm site间有一个巨大的差异，因为备份是通过有限的磁带来完成。其结果是，warm site回收策略往往是按天计算。所以依靠基于磁带的备份恢复的warm site方式显然更适用于低端的灾难恢复服务。

目前基于磁盘的备份方式已经缩小了hot site和warm site之间的距离，几乎所有灾难恢复服务供应商现在都提供了这样一个跳跃的选项，基本上都是通过网络的基于磁盘的备份方式对生产数据进行备份。

这样warm site方式下的RTO和RPO通过基于磁盘备份的方式通常也不到一天，这就非常接近于hot site方式下所提供的恢复时间，但花费的费用只是其一少部分。

惠普的弗格森解释说“在这种情况下，基于DR架构的复制方式和机遇磁盘的共享方式之间就有了约10倍的价格差。这种基于磁盘备份的跳跃选项填补基于磁带的恢复和基于DR架构的复制之间的缺口，客户也能够根据自己的需求选择更高性价比、更加可靠的方式进行DR保护。”

　　Cold site：需要更长的业务恢复时间

cold site方式是租用一个特定的空间，然后准备好电源，散热和连接需要的配件，随时准备手动接管设备。其恢复时间一般在一个星期或更多的时间，cold site只是作为一个可选择的业务流程，用以降低宕机时间。

cold site还可以用于hot site和warm site方式的补充。恢复点系统的兰格说道：“我们的一些客户还采用cold site方式作为应急的冷迁移设备，灾难发生时从一个共享架构方式迁移到cold site方式一般要持续超过6周时间。”。

在灾难发生的时候能够提供一个简单的cold site方式的灾难保护是客户的基本责任。依靠cold site方式的灾难恢复计划，在灾难突至时必须对设备的采购和交付有个清晰的定义。

在需要的时候依赖于在公开市场上采购的设备来应急，这样的策略无疑是非常冒险的，因为他们可能无法及时提供你所需的设备。一个更好的选择是考虑订购快速的租赁服务，如敏捷恢复解决方案(ARS)。 “你可以租以50美元/月的价格选择你所需要设备。”恢复点系统的兰格说道。

灾备外包？还是自建灾备系统？

是否要创建一个内部DR站点或者是外包给其他厂商，这是一项基本的需要决策的决定，要选择好DR的战略位置。内部构建DR站点的做法可能是非常诱人的，但前提是你必须具有能为其服务的管理员。不幸的是，经验表明，通过内部构建DR站点的方式相比外包服务来讲，其失败的可能性看似更大些。

IDC的一项研究表明，企业不外包的情况下，其各种类业务功能(例如、销售/营销、融资、电子商务)平均在每次灾难中损失400万美元。与此相反，企业外包给第三方机构的每个事件引起的平均损失为110万美元。该研究还指出，企业利用内部构建DR站点要比外包服务多花费32 %以上的投入。

它进一步表明，服务外包可以提供更短的时间窗口进行灾难恢复，相比内部构建DR站点方式在RTO方面有0.62个点的减少。该研究得出结论还认为主站点和DR站点数据中心在内部构建DR站点方式时更容易实现同步容灾。

内部构建DR站点方式不被人们看好的另一个主要原因是采用这样的捷径是非常冒风险的，因为用户在其他一些工作上已经超负荷了，他们无法花大部分的时间考虑DR站点的建设，当一个管理员的主要任务和DR站点服务任务相冲突的时候，他会考虑先完成主要工作的，从而不利于DR的系统建设。

那么我们选择一个DR设施时，需要问些什么问题呢？

1.需要使用什么类型的设备？

在内部使用其他办公地点

一个配置设施

通过惠普(HP)有限公司、IBM公司或SunGard数据系统公司这些公司进行外包

2.供内部灾难恢复(DR)设备：

设施是否装备完毕，以处理增加负载时的灾害(带宽，电力，冷却等)？

指定DR工作人员了吗？

指定专用的设备了吗？或者至少在发生灾难的时候可以保证有设备可以使用？

是否可利用现有的资源进行定期测试演练？

3.对于配置设施：

与生产基地之间配置的线缆是不是远远不够？

配置设施是否有足够的带宽选择和控制能力，以应对较大规模和处理过程中增加负荷的重大灾难？

在DR站点由谁来管理设备？如果通过内部构建方式，DR应用要考虑许多的因素。

4.对管理配置空间：

根据恢复时间目标(RTO)和恢复点目标(RPO)，确定所需的DR类型(hosted site、hot site、warm site和cold site)

容灾演练是否已经包含在方案中。

hot site和warm site方式，灾难发生时对灾难恢复端使用限制一般是多长时间，确定无疑的选择你所需要的DR方式，因为你需要使用它很长时间。

　计算灾备的成本

确定一个DR建设所需要的成本要根据具体情况来分析，它会有很多的变数产生，因此对于一个给定环境也难以制定一个公式来计算DR建设所需要的成本。一般情况下，DR建设的成本费用包括物理空间、设备、电源、网络和专业服务。但成本的这些组成部分是千差万别的。“我们曾试图建立一个成本的测算工具，但由于数据中心的情况不同，我们也很难拿出一个成本计算器来对一些环境进行估算”，Sun Gard数据系统公司负责营销的副总裁大卫巴勒莫说道。

富士通计算机系统公司的提供业务连续性(ABC)产品是少数DR打包产品中的一员，这个包包括存储、主机托管和带宽综合费用为19万美元。ABC入门套件包括两个Eternus 4000s配置3 TB的裸存储容量，还包含一套复制软件和一年的主机托管与带宽服务。富士通公司的专业服务与客户的个性化捆绑，并协助确定所需的服务器基础设施（服务器不包括在包）。

选择合适的灾备中心

大家普遍认为最好的DR站点选择放在远程办公地点、配置空间和DR服务提供商的数据中心。

远程办公地点和配置空间：拥有多个办公地点且经常使用的远程数据中心可以作为DR站点。充分利用现有的架构和基础设施是一个非常具有成本效益的DR选项。企业的多个位置，而不是多个数据中心，配置空间一般由Equinix公司、Savvis公司和电信公司这样的提供商提供，这也很可能是一个好的选择。配置设施相对成本效益，并通常提供一流的空间，足够的功率，高带宽和设施标准。

纽约市Tannenbaum Helpern Syracuse & Hirschtritt律师事务所的首席信息官Matt Blydenburgh人为成本是最主要的原因，通过使用在康涅狄格州公司的配置空间实现hot site方式的灾难恢复。 Blydenburgh使用Double-Take软件公司的Double-Take数据复制产品实现从纽约市到康涅狄格州数据传输，采用hot site方式。 “我们也考察了提供灾难恢复服务的SunGard等公司，但它是非常昂贵，我们现在支付为每一空间支付1，800美元，另外为带宽支付1，600美元。 ” Blydenburgh说道。

由DR服务供应商进行管理：通过像惠普、IBM、系统和恢复点的SunGard这样专业的托管服务供应商进行DR管理，由他们提供较高的服务质量，但他们并不便宜。要想在托管服务和自己构建DR站点两者之间找到一个公平的价格比较，你必须考虑到所有的成本组成部分，包括专用的费用和DR管理的工作人员。

综合以上的论述，我们认为DR的建设还需要因地制宜，因人而异。无论你选择hosted site、hot site还是选择warm site、cold site，其中在对RTO和RPO的实现相对成本的比较中都是相反的。在容灾方式的选择上，客户要对自己企业内部的基础设施、管理人员能力要有清晰的把握，因为很多情况下对现有资源的利用将大大节省你在DR投资中的成本，随着托管服务的质量逐步提高，其成本也必然是在逐步减少，这样对于企业也来说在未来会有更多的DR方式进行选择。

继续阅读