/ 中存储网

大话如何理解备份系统的重复数据删除率

2010-08-15 13:52:12 来源:中国存储网

重复数据删除的效率往往用删除率或者减少率来表示,它代表受保护的数据的容量和实际存储的物理容量的比率。10:1的比率表示相对于实际占用的物理空间,重复数据删除并备份保护了10倍的数据。而20:1则表示保护了20倍的数据。考虑到数据增长、保留期限、并假设删除率为20:1,2TB的存储能够至多保护40TB的数据。

这些重复数据删除率是怎么确定的呢?这个比率是把要备份的数据的容量(即要进行重复数据检查的数据)除以实际使用的容量(即删除重复数据之后的数据)得到的。

  现实的删除率是多少?

但是现实中的删除率是多少呢?ESG研究发现,接近33%的人说他们发现容量需求减少率低于10倍;48%说减少在10倍到20倍之间;18%说他们的降低率为21倍到100倍以上。一些因素会影响重复数据删除率,包括:

数据备份策略:全备份(相对于增量备份和差异备份)的频率越高,重复数据删除的潜力也就越大,因为每天的数据有大量的重复。

数据保存期设置:数据在磁盘上保存的时间越长,重复数据删除引擎发现重复数据的可能性也越大。

数据类型:一些数据天生比较容易出现重复。如果网络里存在大量的Windows服务器,或者VMware虚拟机,就有希望得到更高的重复数据删除率。

变化速率:数据变化的速率越低,发现重复的机会也就越高。

重复数据删除的范围:查看和比较的范围越大,发现重复的可能性也就越大,本地重复数据删除意味着只在本地数据源中寻找重复数据,而全局重复数据删除检查多个源来去掉重复。例如,数据每天变化1%甚至更少,每天进行全备份并保留30个备份副本,那么每个备份的99%数据都是重复的,30天之后,重复数据删除比率可以达到30:1。另外假如每周备份,并保留一个月,删除率只有4:1。

重复数据删除率可能会令人很困惑,有些厂家只标明节省的百分比而不是比率。如果一个厂家声称50%的容量节省,那就等于2:1的重复数据删除率。而10:1的比率等同于90%的节省。这就意味着备份10TB的数据只需要1TB的实际物理空间。而20:1的比率能提高的节省百分比仅有5%(达到95%)。

  评估重复数据删除产品

评估重复数据删除产品的时候,重要的是要在你自己的环境中,使用你自己的数据进行测试,经过多个备份周期来观察产品对你的备份/恢复环境的影响。选择产品的标准不应该仅限于考察删除比率。ESG的调查(ESG报告《数据保护市场趋势》2008年1月)显示,不出所料,重复数据删除产品的价格是被提到最多的指标(尽管重复数据删除所节省的存储容量往往能抵消实施的开销)。而且,调查数据显示实施和使用的简便性,以及备份/恢复的性能也是重要的考量——超过实现的技术,比如重复数据删除率。