百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

技术浮沉:纵论Gartner重复数据删除备份魔力象限

mhr18 2025-02-07 18:31 18 浏览 0 评论

今天,我想跟大家聊聊重复数据删除目标备份设备这个领域,部分参考材料是Gantner今年9月25日更新的魔力象限(可以点击本文底部“阅读原文”来查看Gartner英文报告原文)。伴随着公司排名位置的变化,一并分析下这些年来流行的技术路线,以及新技术对最终市场表现的影响、未来趋势等。

先预告一下文中的5个论点:

1、 后处理重复数据删除已近迟暮?

2、 Scale-out用于重删备份叫好不叫座

3、 源端加速重复数据删除受追捧

4、 阵列直连备份成新亮点

5、 FC需求减少、VTL老数新芽?

注:我并非这一领域的专家,只是将自己一些粗浅的见解与大家分享,如有不足之处欢迎批评指正。本文篇幅较长,但为了保证内容上前后关联的完整性,故放在一起发表。

如上图,EMC在企业级磁盘备份存储这一领域仍然遥遥领先,另一家进入领导者象限的惠普与之差距还是很大;远见者象限中的ExaGrid和挑战者象限中的昆腾——都只有一家;余下厂商都在“利基玩家”象限中,戴尔相对领先。

我们找出去年7月的魔力象限用来对比,我用箭头标示出一年多来几家变化较明显厂商的动向。在翻译整理Gartner关于厂商的具体说明之前,先交待一些前提条件。

注:下文中翻译Gartner的内容,我会统一加上灰色底纹,以区别于我个人观点的部分。

l 日立数据系统(HDS)收购了Sepaton;

l NetApp收购了Riverbed 的SteelStore资产,并更名为AltaVault;

l 飞康正在将重心由重复数据删除备份目标设备(VTL和FDS)转移到其整合备份设备(CDP)及综合软件产品(FreeStor)。

由此,Sepaton从之前的远见者象限掉出到HDS现在的位置,以及Riverbed换成NetApp就比较清晰了。除此之外,ExaGrid Systems的远见有所降低;戴尔和NEC表现上升,特别是执行力方面;富士通的下滑我不想专门点评,他们使用了昆腾的重复数据删除算法。

在Gartner报告中,“供应商优势及注意事项”是按照英文首字母来排序的——前面2家是Dell和EMC,这里我打乱一下顺序,先看下降的厂商再看上升的。

ExaGrid

ExaGrid聚焦在中端市场和小企业。不同于运用线内(in-line)重复数据删除的众多竞争者,EX系列产品在备份数据存储于设备中的“着陆区”之后,执行后处理(post-process)重复数据删除。这种架构在从最近的备份恢复、装载虚拟机(VM)即时恢复,或者进行磁带复制时省去了再水化(rehydrate,或称“注水还原”)数据的需要。ExaGrid可以向外扩展到由10种不同容量型号组成的25个节点。

优势

l ExaGrid的横向扩展架构和“着陆区”允许不间断的计算和存储扩展,具备一致的数据摄入速度,以及从最近的备份快速恢复或者VM启动。

l ExaGrid支持广泛的备份应用程序和实用工具,与Veeam之间比其他竞争对手更深度的整合。

l ExaGrid为每个帐户分配一个专门的技术人员,从而导致高客户满意度。

注意事项

l ExaGrid目前在北美以外地区有限的部署和支持能力。

l 虽然恢复最近的备份(未经过重复数据删除处理)性能快,但对于以前的备份会有显著的性能下降,因为需要再水化数据。

l 缺乏一个虚拟磁带库(VTL)接口和光纤通道连接性,可能会限制ExaGrid对大型企业的吸引力。

日立数据系统

日立数据系统公司(HDS)在2014年第三季度收购了Sepaton。后来HDS更名产品线为Hitachi Protection Platform(日立保护平台)S2500 grid,并推出了新的固定容量32TB的S1500产品。S系列执行后处理重复数据删除,对备份和应用工作负载内容感知。虽然以一个快速、可扩展、功能丰富的产品较早进入市场,但HDS/Sepaton让人持续体验到其新架构的产品延迟。

SEPATON S2100-DS3架构图,8节点架构的中央是共享的FC后端阵列

优势

l Hitachi Protection Platform高度可扩展,从32TB设备到4PB的可用磁盘容量,在一个网格架构中最多8个节点。

l 该产品是较早期推向市场的,带有先进功能,如节点间自动负载均衡、快速空间回收、安全擦除、集成系统级加密,对赛门铁克的OpenStorage技术(OST)的强大支持以及通过一个基于云的存储库深度报告。

l 该产品针对虚拟合成全备份和空间回收提供高效、快捷的处理,可提供良好的恢复性能。

注意事项

l 只有VTL和OST协议支持。

l OST支持需要独立的多个许可证。

l 全新的V系列架构提供CIFS和NFS文件接口以及混合(在线和后处理)重复数据删除支持,现在的目标是在2015年晚期发布,比开始的预期晚了超过一年半时间。

点评1:后处理重复数据删除已近迟暮?

上面两家厂商共同的特点,就是都采用了后处理重复数据删除技术。Deduplication本身就是以时间来换空间的技术,而随着Intel CPU计算性能的不断强大,in-line重删的性能不断提高,后处理重删的优势就不明显了。而其缺点——占用更多磁盘空间,增加I/O(可能还会增加硬盘故障率,重删后的数据恢复也需要两个阶段)就显得有些不值了。

这里也举2个旁证,昆腾第一代重复数据删除是后处理技术,后来改为in-line。戴尔NetVault备份软件于2009年底(当时还属于Bakbone)加入的SmartDisk也是后处理重复数据删除,如今将被新的R3(Rapid Recovery Repository)源端+线内重删所替代。详情参见《Rapid Recovery:软件定义重删+持续数据保护》一文。

NEC

NEC的HYDRAstor是一个in-line的全局重复数据删除设备,它具有弹性和高效的横向扩展架构,可以从1个扩展到165节点具有高聚合吞吐量。节点可以无中断添加或者退役,带有自动故障切换、负载平衡和碎片整理。最多可以同时支持三代产品。NEC在2014年底推出了Universal Express I/O,并在最近推出Universal Deduped Transfer,从而在没有任何OST依赖的异构备份应用程序情况下,减少网络流量并提升性能。

NEC HYDRAstor可扩展网格架构

优势

l 可扩展的,真正的网格架构设计使得系统小至2.5TB,最大理论方案超过5PB,以及最快的吞吐量高弹性水平。

l HYDRAstor提供了许多独特的存储功能,例如通过擦除编码(erasure coding,纠删码)可配置弹性和可用性、数据粉碎,以及广泛的加密和锁定功能。

l 在受保护的服务器上新的Universal Deduped Transfer选项支持所有备份应用程序,并可产生4到6倍更大的吞吐量。

注意事项

l 与多节点配置相比,最小的、单个节点的配置将不提供一些功能,如高可用性、以及若干纠删码级别和最快的恢复性能。

l 在日本以外销售额有限;然而,最大的安装基础是在美国。

l 没有VTL接口提供。

点评2:Scale-out用于重删备份叫好不叫座

随着云计算、大数据和软件定义数据中心的发展,Scale-out在多数场合都会被人们认为比Scale-up更好,而在重复数据删除领域则不太一样。

前面谈到的3家厂商,都是Scale-out但却有2家表现下滑,而NEC的提升也与之关系不大,因为其网格架构早已成熟。

在这里,Scale-out需要面对几个问题:

1、高可用性:在单节点时也存在这个问题,由于是备份设备通常允许有一定的停机时间(只要保证数据完整性就好)。而在多节点系统中,这个问题被“放大”了,厂商最好提供节点级容错能力,已经停产并只有2节点的EMC GDA算是个例外。

2、数据一致性和负载均衡:需要像文件系统那样有一个全局命名空间,但不见得都能做到数据均匀分布和自动负载均衡。比如惠普StoreOnce B6000系列高端产品,是双控+Scale-out的容错配置,但据了解其最佳实践为人工分配备份任务。

3、跨节点访问:为了实现全局重复数据删除,需要有一个涵盖所有数据的Hash(哈希)指纹库,这部分数据只有存储或者缓存到内存/闪存中才能达到较高的访问效率。一旦节点扩展的规模较大,重删指纹库应该会切分到各个节点,毕竟多个节点都用DD990那样的四路服务器豪华配置不太现实。也就是说在数据比对,以及计算之后的落盘时可能产生跨节点访问,此时如果用万兆以太网效率是否就能达到要求呢?

重复数据删除设备的底层都要有一个文件系统,这个也分为Shared-Nothing分布式与集群式共享后端两种架构。

集群网关型:上文中我们列出过架构图,HDS/Sepaton是典型的集群架构,前端8个网关节点,后端在收购之前就采用日立的AMS磁盘阵列。据了解Sepaton团队源于著名的SANergy文件系统,曾经具备优秀的技术。Sepaton之前可能存在的一个短板是,在针对开放式系统的磁盘备份产品中,主要针对高端VTL市场,使其用户群有些局限。

类似的网关型产品,还有IBM ProtecTIER(Active/Active)、飞康(N+1)等。

对等分布式:全分布式的代表,应该就是NEC HYDRAstor和ExaGrid。以NEC为例,Scale-out的好处前面介绍了,而采用纠删码会带来更多的网络流量(特别是在重建数据时),提高扩展性可能是以牺牲(每节点)性能为代价的。

再举2个相关领域的旁证,EMC XtremIO是为数不多的Scale-out+重删主存储系统(全闪存阵列),这依赖于高速的InfiniBand集群互连专网,为了实时处理重复数据删除其元数据需要全部放在内存中。

Isilon集群NAS也是IB互连,它的设计是文件系统元数据在所有节点的SSD上保持同步一致。做为性能要求较高的生产存储,其后来添加的重复数据删除功能是后处理实现,我猜测其重删速度不高。

类似采用后处理重删的还有另外几家的集群NAS,包括戴尔Fluid FS等。

总之,Scale-out与重复数据删除是2个比较难于优化并存的技术。而备份产品对硬件成本通常限制较多,加入InfiniBand互连网络等也是不太现实的。

尽管数年前EMC就表示个别用户提出过高可用方面的需求,但以其顶级产品DD990的水平在性能上已经不是问题。也许EMC后续有Scale-out的计划,我觉得除了HA之外,像VMAX、XtremIO、ScaleIO那样具备无缝扩展性能的弹性是比较值得看重的。

戴尔

虽然戴尔只是在重复数据删除备份目标设备的市场做了几年,他们已经在中型企业市场取得了长足的进展。物理的DR4000和DR6000系列产品提供了可以接受的在线重复数据删除比率,通常用比竞争对手更实惠的价格。戴尔还增加了虚拟机形式的DR2000v用于远程办公室/分支办公室使用,它可以复制重删后的数据到中央物理设备。

优势

l 戴尔在其DR系列设备及自家备份软件之间拥有良好的整合,比如支持为了加快的备份和恢复性能的Rapid Data Access(RDA)。

l 所有特性、功能和三年的维护和支持,包括在基础价格中。

l 戴尔提供了创新的Rapid Network File System(NFS)和Rapid Common Internet File System(CIFS)的功能,这对于支持的备份应用程序提供源端重复数据删除。

注意事项

l DR系列缺少光纤通道支持,并且其标注的参考整体重复数据删除比率相比竞争对手较为谦逊。

l DR2000v需要一个物理许可证服务器,今天还不能作为一个独立的解决方案。

l 一些不支持RDA的环境可能需要支持更多的并发备份流,超出了该设备所提供的。

点评3:源端加速重复数据删除受追捧

我们注意到,在Gartner魔力象限执行力排名前4的公司——EMC、惠普昆腾和戴尔,都具备专有的源端(客户端)加速重复数据删除技术。当然还有另外一家执行力提高的NEC,早先我还曾询问过他们,现在看最终也加入了。

目标端重复数据删除 vs. 源端加速重复数据删除

这些技术的参考对象最初可能来自赛门铁克OST,但OST的问题在于只支持自家备份软件。因此EMC推出了DD Boost,以Data Domain优势的市场地位吸引备份软件来支持。

对于后来者,为了提高竞争力也有一些特色或者说微创新。比如一位来自戴尔的资深工程师表示:“类似Rapid Data Service的技术,EMC和昆腾都有,而只有戴尔做到了:

第一、随设备免费提供;DD Boost至今还要收费。

第二、以NFS/CIFS这种通用协议交付(戴尔称为Rapid NFS/CIFS,仅随DR设备提供,免费提供去重客户端软件),和RDA协议类似,但是RDA还是属于封闭协议。”

上图引用自ESG实验室在去年5月的一份报告:《Enterprise-class Backup Performance with Dell DR6000

在此引用《DR Rapid:打通备份数据流动的任督二脉》中的一段话:“戴尔DR Rapid技术的一大特点是开放兼容。如上图:除了所有DR支持(也就是做过兼容性测试)的备份应用都可以使用标准NFS/CIFS做目标端重删之外;针对NetVault有自己的RDA;赛门铁克Backup Exec和NetBackup可以用OST协议;对于CommVault、TSM、NetWorker、RMAN等更多备份程序还提供Rapid CIFS/Rapid NFS插件,同样支持源端+目标端全局重复数据删除。”

关于源端重删的优缺点,业内已经讨论许多年了。这里我只简单评论一句:以生产服务器的部分计算能力,换取网络流量降低,并缩短备份时间。

本来我不太想点评EMC,因为他们的位置没有明显变化,但考虑到业界老大的参考价值,还是把Gartner报告内容翻译如下:

EMC

EMC的Data Domain在被评估的设备数量、用户数、磁盘总容量和销售额方面,拥有所有产品中最强的市场占有率。Data Domain Boost作为一个重复数据删除解析引擎,具有最广泛的业内支持。新的ProtectPoint备份软件,对于选定的应用程序可以快速、直接地从EMC主存储备份到Data Domain,能够实现更多的每日全备份以降低数据丢失窗口。客户对Data Domain的可靠性、功能性和易用性给予好评。

优势

l Data Domain的具有全面的特性和功能,以及较高的重复数据删除比率。

l ProtectPoint与Data Domain提供了一个创新的替代以备份服务器为中心的方法。

l 许多客户已经使用Data Domain的长期保留层,以便在他们的备份基础架构中完全取代磁带。

注意事项

l Data Domain缺少横向扩展架构,不能无中断扩展性能。

l Data Domain无法关闭重复数据删除,以支持一些客户所要求的非重删处理的磁盘架。

l ProtectPoint保护只涵盖EMC存储解决方案的一个子集和少数流行的数据库环境。

点评4:阵列直连备份成新亮点

下面截取EMC ProtectPoint白皮书中的2个原理图,作为这类技术的代表。

ProtectPoint数据平面(备份)

限于篇幅,本文中我们只列出ProtectPoint数据平面的原理图,控制平面有机会再讨论。备份部分,本质上是一个Server-less快照增量备份的过程。

ProtectPoint数据平面(恢复)

恢复的这张示意图比较有意思。位于Data Domain上的LUN备份目标,在恢复之前或者恢复过程中,就可以经由前端的EMC阵列映射给服务器使用了,将大大降低这种定时备份的RTO(恢复时间目标)。这里面有个关键点,我觉得它利用了VMAX的存储虚拟化技术——Data Domain上的备份目标可能是以LUN形式映射给前端阵列,然后VMAX再将其封装成自己的LUN格式。

ProtectPoint是同类技术中第一个推出的,除了VMAX之外最近也支持XtremIO,再加上目前看到的Oracle数据库支持(一致性快照)——应该是瞄准关键业务数据保护。相比之下,惠普的RMC针对3PAR产品线,只支持保护VMware环境。

对于“阵列直连备份”这一新生技术,因为与被保护阵列的依赖关系,其普及速度取决于厂商有没有强大的主存储产品线,像昆腾等估计玩不了。而NetApp由于收购之前已经不怎么涉足重删备份这一领域,他们都是推荐用阵列来保护阵列(备份/复制目标同样是FAS/V系列)。

点评5:FC需求减少、VTL老数新芽?

很早就有人说虚拟磁带库(VTL)是物理磁带与磁盘备份之间的一个过渡。当OST、DD Boost等基于以太网(建议用10GbE)的源端+目标端重删技术逐渐普及之后,传统FC(光纤通道)VTL的需求逐渐减少了。但国内市场还是面对变化依旧有些保守,比如Data Domain还有些人认为它只是一款虚拟带库,而不知道NAS甚至DD Boost。甚至NEC的朋友曾经还与我探讨过这个市场还有多大(值不值得花精力做?)

当VTL已经不再是高性能的代名词时,如果用户规划好以太网的带宽,传统意义上的LAN-Free备份也不在显得高大上了。然而我发现,虚拟磁带库仍将以一些方式长期存在,比如亚马逊就推出了Amazon Gateway VTL,这应该是一个本地的虚拟磁带库网关,其后面的数据保存在AWS云端的S3和Glacier冷存储。我觉得它的出现仍然主要还是为了兼容老的备份/归档软件,以及磁带数据的合规保留策略。

图例:NetVault备份软件提供对Amazon VTL网关的支持,也就是所谓的“云备份”

曾经有朋友说“云时代直接抛弃FC”(当然不会有那么快),我们看到戴尔DR也加入了iSCSI VTL支持。除了NBU、NetWorker、NetVault这些老牌备份软件之外,别忘了Linux和微软Windows平台仍然提供磁带备份支持,还有现在不常被人们提起的DPM(Data Protection Manager)。

至于FC VTL,虽然不符合大趋势,但一段时间内需求仍然存在,如果未来哪个厂商还去增加此类支持也未可说?反而是DD Boost over FC这样的特性,似乎只有EMC的市场规模做出来才有意义。

:本文只代表作者个人观点,如有错误和不足之处欢迎批评指正。

重要提示:请在本公众号发布2天后,才能转载本文,有疑问请联系作者。尊重知识,请必须全文转载,并包括本行及如下二维码。

感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage

历史文章汇总:
http://blog.sina.com.cn/firegl

相关推荐

SQL入门知识篇(sql入门新手教程视频)

一、什么是数据库?什么是SQL?1、数据库:存放数据,可以很多人一起使用2、关系数据库:多张表+各表之间的关系3、一张表需要包含列、列名、行4、主键:一列(或一组列),其值能够唯一区分表中的每个行。5...

postgresql实现跨库查询-dblink的妙用

技术导语:用惯了oracle的dblink,转战postgresql,会一时摸不着头脑。本期就重点详细讲解postgresql如何安装dblink模块及如何使用dblink实现跨库查询。安装cont...

Oracle VM VirtualBox虚拟机软件(oracle vm virtualbox win10)

OracleVMVirtualBox是一款完全免费的虚拟机软件,下载银行有提供下载,软件支持安装windows、linux等多个操作系统,让用户可以在一台设备上实现多个操作系统的操作。同时软件有着...

开源 SPL 轻松应对 T+0(开源srs)

T+0问题T+0查询是指实时数据查询,数据查询统计时将涉及到最新产生的数据。在数据量不大时,T+0很容易完成,直接基于生产数据库查询就可以了。但是,当数据量积累到一定程度时,在生产库中进行大数据...

中小企业佳选正睿ZI1TS4-4536服务器评测

随着科技的不断发展,各行各业对于数据使用越加频繁,同时针对服务器的选择方面也就越来越多样化和细分化。那么对于我们用户来说,如何选择符合自身业务需求和最优性价比的产品呢?笔者将通过刚刚购买的这台服务器的...

MFC转QT:Qt基础知识(mfc和qt的区别)

1.Qt框架概述Qt的历史和版本Qt是一个跨平台的C++应用程序开发框架,由挪威公司Trolltech(现为QtCompany)于1991年创建。Qt的发展历程:1991年:Qt项目启动1995年...

数据库,QSqlTableModel(数据库有哪些)

QMYSQL——mysqlQSQLITE——sqliteQOICQ——orcale所需头文件.pro增加sql#include<QSqlDatabase>#include<Q...

python通过oledb连接dbf数据库(python连接jdbc)

起因:因为工作需要,需要读取dbf文件和系统数据中数据进行校对,因为知道dbf文件可以用sql查询,所以想能不能像mysql/oracle那样连接,再调用执行sql方法,通过一系列百度,尝试,最终通过...

Excel常用技能分享与探讨(5-宏与VBA简介 VBA与数据库)

在VBA(VisualBasicforApplications)中使用数据库(如Access、SQLServer、MySQL等)具有以下优点,适用于需要高效数据管理和复杂业务逻辑的场景:1....

Excel常用技能分享与探讨(5-宏与VBA简介 VBA与数据库-二)

以下是常见数据库软件的详细配置步骤,涵盖安装、驱动配置、服务启动及基本设置,确保VBA能够顺利连接:一、MicrosoftAccess适用场景:小型本地数据库,无需独立服务。配置步骤:安装Acces...

Windows Docker 安装(docker安装windows容器)

Docker并非是一个通用的容器工具,它依赖于已存在并运行的Linux内核环境。Docker实质上是在已经运行的Linux下制造了一个隔离的文件环境,因此它执行的效率几乎等同于所部署的L...

Windows下安装Ubuntu虚拟机方法(windows下安装ubuntu20)

在Windows下安装Ubuntu虚拟机。选择使OracleVMVirtualBox安装Ubuntu虚拟机。1.下载和安装OracleVMVirtualBox:访问OracleVMVir...

java入门教程1 - 安装和配置(win和linux)

windows安装和配置安装javahttps://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html目前大部分项目的...

Centos7 安装Tomcat8服务及配置jdk1.8教程

1、下载jdk1.8压缩包下载地址:https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.htmltom...

全网最完整的免费java教程讲义(一)——java配置和安装

一,安装Java1)安装JDK要学习和使用java,首先需要安装JDK(JavaDevelopemntKit),相当于java安装包。Java的下载页在甲骨文官网上:https://www.or...

取消回复欢迎 发表评论: