IT巨头小声嘟囔着:我们不喜欢炫耀……
NEC公司拥有目前世界上规模最大且最具向外扩展能力的重复数据删除备份型磁盘阵列,但我们几乎从来没有听说过这一消息。而且根据IDC方面的统计,NEC公司无论是在出货量层面还是营收层面,都算不上是世界前六大备份设备供应商。
不过其拥有掌握着1100家客户与1800套装机容量,管理有约3 EB存储数据,且始终静静地守护着这一切。
这套方案的扩展能力由单节点到165节点,且具备全局重复数据删除功能——事实上,这一点在目前磁盘备份市场领导者EMC的Data Domain产品中从未能实现。
为什么NEC公司要对自身掌握的技术如此低调?
事实上,NEC是一家非常典型的大型日本企业集团,其一直在不断制造各类技术方案并将其销售至全球市场。这家历史超过130年的企业拥有99000名员工并掌握着超过64000项专业,在全球设有9个研发实验室,但却仅仅提出一句看似空洞的使命性口号:构建一个美好的世界。
NEC公司表示,其技术创新“使得我们让人们拥有更为美好的生活。”
该公司的电信技术部门价值62.16亿美元,公共部门业务价值68.5亿美元,系统平台业务价值60.7亿美元,而即使是规模相对较小的企业业务部门也拥有22.5亿美元价值。
与日立不同,NEC公司并非采取美国的管理及企业文化在美国境内设置类似于HDS的子公司。其NEC美国集团,简称NECAM,仍然由日本方面直接领导。
一位造访其硅谷办事处的新闻记者先后采访了NEC公司IT平台运营副总裁Hide Senta、产品经理Nobu Morita、执行首席工程师兼HYDRAstor CTO Hiroaki Mizumachi,希望借此了解该公司的企业文化。当然,这里也聚焦着众多来自美国及欧洲的员工。
正如我们对于日本企业的一贯印象,NEC公司最大的优势在于其日式管理文化,而最大的缺点……同样是以平静、量化及低调著称的日式管理文化。
在NEC公司的众多“智能化企业”产品当中,M系列SAN阵列包含磁盘与全闪存类产品,WB系列为光纤交换机,HS系列则为以HYDRAstor品牌销售的备份与归档存储产品。
这款产品源自2002年的一个研究项目,其于2006年进行beta测试阶段并于2007年推出第一代HYDRA产品。该系列方案随后一直保持着稳定的更新周期:2008年推出HYDRA2,2010年推出MiniHYDRA(HS3)、2011年推出HYDRA3,2013年推出HYDRA4,2014年推出第五代以及归档专用HS6产品。凭借着重复数据删除技术的配合,其性能提升达46倍。
该产品拥有内联全局重复数据删除、在线节点扩展、NEC自有擦除编码保护、广域网优化型同步压缩后复制以及多生成节点支持能力。其初步设计主要面向高性能计算市场以及对于速度要求较高的并行数据提取用例。
其采用的前端访问协议包括NFS、CIFS、OST、UEI以及REST。
NEC公司刚刚发布了一套纯软件版本——HYDRAstor Virtual Appliance(简称VA)。其能够部署在vSphere或者Hyper-V环境当中,且可支持1到16 TB容量区间。其设计思路在于由远程及分支机构加以使用,并可通过灾难恢复链接返回中央站点。其定价为2000美元起,其中包含全部软件并配备有复制、加密、WORM以及重复数据删除功能。
这套系统拥有两类节点——混合加速节点(x86服务器)与存储节点——用于提供相互独立的性能与容量扩展能力。其中存储节点目前采用6 TB SATA驱动器。该系统采用对象存储配合NEC自家擦除编码以实现数据保护。重复数据删除技术适用于全部节点上的全部数据。其中亦包含一套分布式哈希表,且重复数据删除与哈希表皆可随节点增加实现线性处理规模提升。
下面来看数据进入该阵列后的整个处理流程。
首先,全部数据都会采用可变块大小经过重复数据删除处理, NEC方面表示HYDRAstor拥有目前业界最快的单控制器写入速度,每小时达63 TB; 而系统整体的每小时5.2 PB速度更是高达业界其它同类解决方案的25倍。
擦除编码原理
在此之后,其会利用基于柯西公式的里德索罗门编码进行代码擦除。具体来讲,代码会被拆分成多个片段,并通过数学处理以生成在数量上等同于所需保护驱动器的额外及冗余碎片。如果输入数据被拆分成10个片段外加6个新增保护片段,那么这16个片段将被写入16台独立的驱动器或者节点当中,而其中任意6块驱动器故障后数据皆可实现完整恢复。
这一数学处理方法被称为前向纠错,且通常基于里德索罗门编码机制。其需要额外存储的数据量低于RAID模式,且可保护同等数量的故障驱动器。这里最值得关注的参数有二,其一为计算擦除编码及数据恢复时占用的CPU资源量,其二为存储原始数据额外片段所需要的具体磁盘容量。
NEC公司指出,HYDRAstor模式——即分布式弹性数据——较其它擦除编码方案更为高效。其能够实现相当于RAID 10到50倍的驱动器/节点故障恢复速度。默认设置可防止3台驱动器故障,需要额外占用25%存储容量; 但大家也可以将故障驱动器数量设置为6块或者1块。大家可以为不同应用场景设置不同的弹性水平。在3级弹性水平(相当于9数据片段与3奇偶校验片段),NEC方面表示大家可以实现1.5倍于RAID 6的保护效果,且恢复速度更快、占用资源量更低。
这项技术会将输入数据立足子空间概念进行分发,而后将其写入至磁盘上的日志类存储桶内。单一节点可容纳超过一套子空间。
HYDRAstor到底有多出色?NECAM方面提到,某家南非银行(很可能是南非第一国家银行)已经利用HYDRAstor方案取代了12套DD890与6套DD990 Data Domain系统,外加6套5330 NetBackup Appliances方案。
来自美国的全球支付协会亦于2010年利用18台HYDRAstor节点替代了原有LTO磁带。其目前在多座数据中心内使用108台节点。
在我看来,NECAM确实已经在这一领域占得优势,特别是考虑到包括Data Domain在内的任何其它磁盘备份系统都根本无法应对不断增长的超大规模客户数据存储需求。日立数据系统公司于2014年收购了HYDRAstor的竞争对手Sepaton,其目前被命名为日立保护平台公司,且主要针对RAID 6开发重复数据删除与复制功能——而非擦除编码。
在一份白皮书中,HDS方面宣称这是“目前业界最为强大且灵活的数据保护平台,”能够凭借其网格扩展性架构提供“无与伦比的性能与容量可扩展性。”
如果大家需要一套高端、基于磁盘的备份与归档向外扩展系统,那么HYDRAstor与HDS系统无疑是您最理想的两个选项——而考虑到擦除编码功能的存在,NEC无疑更胜一筹。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。