什么是超融合:论到当今企业级IT市场最火热的产品,非超融合莫属。超融合已成为企业数据中心及私有云IaaS层最重要的选择。
百度百科对“超融合基础架构”的定义:是指在同一套x86单元设备中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括备份软件、快照技术、重复数据删除、在线数据压缩等元素,而多套x86单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(scale-out),形成统一的计算与存储资源池。
作为近几年来IT市场上风头正盛的新产品,超融合的年市场增长率高达20-30%以上,从最早的备受质疑,到后来逐渐被市场接受,再到今天的大放异彩,超融合的发展轨迹同历史上那些里程碑式的产品何其相似,这也侧面说明了超融合的诞生是具有颠覆性意义的。
硬件层面:超融合基础架构实现了计算、存储、网络等资源的统一管理和调度,具有更弹性的横向扩展能力,可以为数据中心带来最优的效率、灵活性、规模、成本和数据保护。使用计算存储超融合的一体化平台,替代了传统的服务器加集中式存储的架构,使得整个架构更清晰简单,极大简化了复杂IT系统的设计。
软件层面:“虚拟化”是超融合技术的重要组成部分。超融合设备通常会充分使用计算、网络、存储和服务器虚拟化技术,使得这些资源池化成为云资源,更好地适应云计算的需求。使用虚拟化技术以后,虚拟化层就会把用户的应用和物理设备隔离开,从而使硬件的无缝扩展和超强容错成为了可能。
开箱即用、无缝扩展、超强容错、高性价比以及一站式服务,构成了超融合设备的核心客户价值。
超融合的灵魂在于分布式存储:超融合的核心功能是分布式存储系统和统一的存储资源管理平台。Google采用GFS建立了云计算数据中心场景下的分布式存储系统;在企业端也存在IT扩容升级的需求,虽然计算可通过服务器虚拟化容易实现,但基于传统SAN和NAS存储的性能与容量扩展与升级非常困难。而超融合采用分布式存储技术,同传统存储最大的不同就是可扩展性更强。毫不夸张地说,分布式存储是超融合的灵魂。
传统SAN和NAS存储采用多控制器共享架构和RAID技术实现数据保护与业务高可用,具有稳定性强、IO性能高的特点,但扩展困难,容易形成数据孤岛。此外,SAN和NAS存储的硬件生命周期为3到5年,到期需要执行繁琐的数据迁移操作,运维管理十分困难。超融合采用通用x86硬件和分布式存储技术,通过随机哈希(Hash)算法将数据的多个副本均匀分布在各个节点上,因此容易扩展。当磁盘损坏或服务器硬件老化时,可分批次逐渐更换,具有可持续的硬件生命周期管理,而无需执行繁琐的数据迁移。
国内市场上主流的超融合厂商有VMware、华为、新华三、深信服、道熵、SmartX等。VMware采用VSAN 三副本保护机制,只能在VMware的虚拟化环境中使用;华为/新华三的分布式存储属于Ceph路线,采用三副本;深信服的分布式存储建立在GlusterFS基础上,属于三副本范围;而道熵的铁力士分布式存储则采用双重RAID架构,在接口层兼容Ceph块、对象和文件系统协议,底层采用具备存储虚拟化的RAID技术,因此兼具分布式高扩展和传统磁盘阵列的高稳定性和高性能的特长。SmartX采用了类似GFS分布式文件系统的架构,采用三副本数据保护。
三副本vs双重RAID:
超融合的核心在于分布式存储,而对存储最基本、最首要的要求,就是稳定性与数据安全性。
以Ceph为代表的三副本分布式存储,采用无中心分布式元数据管理的CRUSH算法,将每个数据块的三个副本(一主两从)随机保存在三个存储节点上。当某个硬盘损坏时,CRUSH算法可以自动再平衡(re-balance)数据,以最快的速度确保每个数据块都有三个副本。
上述三副本工作机制带来以下几个问题:

为应对三副本分布式存储面临的问题,道熵铁力士超融合创造性提出了双重RAID机制,既保留了Ceph无中心分布式元数据管理带来的高扩展性特征,又通过节点内RAID解决了Ceph所面临的稳定性及数据安全性的缺陷。其基本原理是:每个存储节点通过存储虚拟化技术,把节点上的所有磁盘构成一个具有RAID功能的存储池,在其上构建多个虚拟卷vOSD,通过CRUSH分布式数据管理,产生跨节点两副本。这种节点内RAID与跨节点的网络副本相结合的方式,构成了对数据的两重RAID保护,因此简称为双重RAID机制。
双重RAID机制与三副本相比,具有以下优势:
总结:超融合的灵魂在于分布式存储。主流的超融合建立在Ceph、vSAN、GlusterFS等分布式存储技术基础之上。超融合的分布式存储可分为随机哈希控制下的三副本数据机制和双重RAID机制,其中,以道熵铁力士超融合为代表的双重RAID机制,在稳定性与数据安全性方面具有得天独厚的技术优势。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。