/ 中存储网

EMC Data Domain SISL 扩展体系结构详细介绍

2011-07-03 00:05:02 来源:中存储网

EMC Data Domain SISL 扩展体系结构

摘要

几十年来,凭借低廉的价格,磁带一直是用于数据保护的主要存储介质,然而与基于磁盘的重复数据消除存储系统相比,这种介质正在逐渐失去优势。EMC
®Data Domain®系统采用以 CPU 为中心的设计,消除了磁盘 I/O 的瓶颈压力。在过去 20 多年中,CPU 的速度提高了数百万倍,而磁盘速度仅提高了大约 10 倍。而且这种性能差距在未来似乎还将继续扩大。我们可以合理地假设,内核数量每增加一倍,就意味着 Data Domain 系统的速度可以提高大约 50%。在流通知
型数据段布局 (SISL) 中,Data Domain 已开发出一种经验证的体系结构,可利用经济的存储硬件提供具备高吞吐量的重复数据消除存储系统。随着时间的推移,这种体系结构必将使不断提升的 CPU 性能直接为系统可扩展性带来好处。


执行摘要 以 CPU 为中心的紧凑型线内重复数据消除解决方案几十年来,凭借低廉的价格,磁带一直是用于数据保护的主要存储介质,然而与具备重复数据消除功能的磁盘系统相比,这种介质正在逐渐失去优势。随着时间的推移,重复数据消除方法可以提供比传统压缩高出许多倍的数据缩减效率。这意味着重复数据消除系统需要更少的磁盘,而且相同成本的磁盘存储系统可以与磁带自动化相媲美。客户有时会奇怪,市场上大多数重复数据消除产品都使用比预期更多的磁盘。如果没有很好地考虑实现方式,重复数据消除将可能变成一项消耗大量磁盘资源的活动。传统的提升磁盘系统性能的方法是使用更多磁盘和使用更快、更昂贵的磁盘。这样可以分散负载,从而只需相对较低的访问和传输速度。但问题是,在重复数据消除阵列中使用这种方法可能会很快导致它比对应的磁带库更加昂贵。当使用低成本高容量的 SATA 驱动器时,这也意味着大部分容量将被浪费,因为每个磁盘都具有大量空间。为了获得更高的 I/O 性能而增加更多磁盘,客户需要为大量不必要的容量付出成本。EMC®Data Domain®很早就通过 Data Domain 操作系统 (DD OS) 中的流通知型数据段布局(SISL) 扩展体系结构解决了这一问题。它优化了重复数据消除吞吐量的可扩展性,同时通过尽可能减少磁盘访问次数,最大限度地减少了磁盘容量。这使系统吞吐量能够以 CPU 为中心。随着 CPU 性能的提高,速度也会直接得到提高。

简介
本白皮书探讨了 Data Domain SISL 的方法及其对优化重复数据消除的贡献。

目标读者
本白皮书主要面向 EMC 客户、技术顾问、合作伙伴,以及 EMC 与合作伙伴专业服务社区中有兴趣深入了解 Data Domain 流通知型数据段布局 (SISL) 扩展体系结构的成员。

面临的挑战:指纹识别和速度

每个磁盘的速度

重复数据消除的基本算法是,以可重复的方式将传入数据流分割成多个数据段,并计算数据段的唯一指纹,随后将此指纹与系统中的所有其他指纹进行比较,以判断它是唯一指纹还是冗余指纹。只有唯一的数据才会被存储到磁盘中。对客户端来说,系统似乎只是在按普通的方式存储数据,但在本质上它并不会将相同的数据段重复存储在磁盘空间中,而是另外创建一些指向之前存储的唯一数据段的引用。

为了有效缩减数据,应减小数据段的大小,最大限度地提高数据缩减的效果。数据段越小,就越容易在更多的地方找到它们。但数据段越小就意味着数量越多,因此需要计算和比较的指纹也 更 多 。Data Domain 重 复 数 据 消 除 技 术 使 用 的 是 相 对 较 小 的 数 据 段 ( 大 小 可 变 , 平 均8 KB)。这样可以实现最佳的重复数据消除效果,并提供一种灵活的、独立于应用程序的存储。在识别出唯一的数据段后,系统会对其进行本地压缩(例如 LZ、gzip 等),并将压缩后的数据存储到磁盘。