随着数据的重要性深入人心,数据备份成为企业运营发展的必需品,大多数企业都会通过定期备份来预防意外停机、数据受损等天灾人祸。数据存储的规模每12个月到18个月就会翻番,因此,帮助企业增加可用数据空间,节省在数据空间的成本投入是非常值得关注的事。例如,一家企业拥有400名员工,他们使用台式机和笔记本电脑。一台普通的笔记本电脑可以在硬盘上保存50到数百GB的数据。所有电脑包含20到150TB的数据。压缩率为2:1时,备份管理员需要为每个完整备份提供10到75TB的空间,并且还需要额外的空间用于增量备份和差异备份。最终,该企业需要为电脑数据备份准备多达1PB的存储空间。假设该企业为电脑备份投资了昂贵的存储设备。下一个更大的挑战是将PC备份到此存储中。一个100 Mbit(兆位)的网络每秒只能传输10MB的数据。以这种速度,完整备份将需要两到三周的时间才能传输10到75TB的数据。况且,每台电脑都拥有相同的操作系统、相同的应用程序以及相同数据的多个副本。研究表明,如果备份解决方案仅传输和存储唯一数据,则企业最多能够将其存储容量和网络需求降低50倍。如果同一数据多次存储和传输到同一存储设备,就是对时间和资源的极大浪费,而人工去查验这些重复数据将耗费大量的时间和人力。基于这种需求,数据备份保护过程中的重复数据删除技术应运而生。
什么是备份重复数据删除?备份重复数据删除是通过检测数据重复并将同一数据仅存储一次来最大程度地减少存储空间的技术。重复数据删除还可以缩减历史数据的大小,从而节省大量存储成本,并防止未来从多个来源复制类似数据。重复数据删除可优化冗余,而不会损坏数据真实性或完整性。启用重复数据删除后,您的备份解决方案将对数据进行分段,对照之前已写入的数据矩阵进行检查。将备份进行重复数据删除并将其保存到托管存储中。启用重复数据删除的存储位置被称为重复数据删除存储。除此之外,重复数据删除可以在文件级,子文件级(文件片段)或块级运行,通常可以与备份解决方案支持的所有操作系统一起使用。
备份重复数据删除的工作原理:重复数据删除将备份数据集拆分为多个数据块。每个数据块的唯一性通过一个特殊的数据库进行检测,该数据库跟踪所有存储的数据块的校验和。唯一数据块被发送到存储,并且重复项被跳过。例如,如果将10个虚拟机备份到重复数据删除的存储中,并且在其中五个中找到相同的数据块,则仅发送和存储该数据块的一个副本。这种跳过重复数据块的算法节省了存储空间,并使网络流量最小化。在对重删存储执行备份时,备份解决方案将计算每个数据块的指纹或校验和。此指纹或校验和通常称为哈希值。您的备份解决方案可能支持固定大小或可变大小的数据块。事实证明,固定大小的数据块重复数据删除效果并不佳,在较小的数据块上会消耗大量内存和CPU资源;在较大的数据块上提供了更低的重删率。最先进的现代备份解决方案提供了可变大小的数据块重删功能,可以调整块大小以实现最大化重删率,同时减少内存和CPU的使用率。在将数据块发送到存储之前,备份解决方案将查询存储系统以确定该数据块的哈希值是否已经存储在其中。如果已存储,则解决方案仅发送哈希值;反之,则发送数据块本身。对于加密文件或非标准大小的磁盘块数据无法进行重复数据删除。在这些情况下,解决方案始终将此数据传输到存储中,而无需计算哈希值。完成对重复删除存储的备份后,存储系统将执行存储端重复数据删除。通常,此过程的工作方式如下:
数据块从备份文件移动到存储中的一个特殊文件中(重删数据存储)。重复的数据块仅存储一次。哈希值到数据块的链接已保存到重删数据库中,因此可以轻松地重组数据。所以,数据存储区包含许多唯一的数据块。每个数据块都有一个或多个备份参考。引用记录在重复数据删除数据库中。在恢复期间,备份解决方案代理会从存储中请求数据。存储系统从存储中读取备份数据,如果在重删数据存储中引用了块,则存储系统将从中读取数据。对于代理,恢复过程是透明的,并且与重复数据删除无关。从存储中删除一个或多个备份后(手动或通过保留规则),数据存储区可能包含数据块,任何备份都不再引用这些数据块。这些孤立数据块将由存储系统运行的特殊计划任务删除。其工作原理是:首先,存储系统会扫描存储中的所有备份,并将所有引用的数据块标记为已使用(在重复数据删除数据库中将适当的哈希标记为已使用)。其次,存储系统删除所有未使用的数据块。此过程可能需要其他系统资源。这就是为什么此任务通常仅在存储中积累了足够数量的数据时才能运行的原因。备份解决方案代理通常会先压缩备份的数据,然后再将其发送到服务器。在压缩之前计算每个数据块的哈希值。这意味着,如果两个相等的数据块即使以不同的压缩级别进行压缩,则它们仍被视为重复项。出于安全原因,不会对源端加密的备份进行重复数据删除。为了同时利用加密和重复数据删除功能,您的备份解决方案应支持对托管存储本身进行加密。在这种情况下,恢复期间,数据将由存储系统使用存储特定的加密密钥透明地解密。如果存储介质被盗或被未经授权的人员访问,则存储在不访问存储系统的情况下是无法被解密的。
备份重复数据删除技术通过删除备份和传输数据时的重复数据块,从而降低存储成本和网络带宽占用。重复删除技术可以帮助实现:通过仅存储唯一数据来减少存储空间使用。无需投资于重复数据删除专用硬件。减少网络负载,因为传输的数据更少,从而为您的生产任务留出更多带宽。需要注意的是,经过重复数据删除的存储可能需要更多的计算资源,例如内存和/或CPU。在某些情况中,传统的非重复数据删除存储可能比重复数据删除更具成本效益。在实施重复数据删除之前,应该始终分析用户的需求和基础架构。海境超备把数据恢复专有技术融入存储数据安全,所提供的数据保护方案,拥有专用备份存储架构和软硬协同原生架构,安全可靠,高性能设计,构建以数据为中心的存储内生安全能力。围绕数据的全生命周期,实现热数据全容灾、温数据热备份、冷数据温归档和全场景智能融合,保证客户业务不中断,数据不丢失,快速恢复业务,信息长期留存,帮助客户实现法规遵从下的关键数据高效备份,价值数据快速利用,节省数据保护投资。海境超备为各级数据中心提供全方位安全可控解决方案,包括传统,云计算和大数据中心,以及多层次,多策略,全域的产品和服务。所提供的数据保护方案,拥有专用备份存储架构和软硬协同原生架构,安全可靠,高性能设计,构建以数据为中心的存储内生安全能力。围绕数据的全生命周期,事前安全预防,事中快速响应,事后降低损失,满足存储数据容灾、同步、迁移、分发、共享、集成和管理等需求,构建高效经济、安全合规的数据资产保护体系,增强行业数据韧性。