Western Digital 正在向 Ingrasys 提供 NVMe PCIe 到以太网的 RapidFlex 桥接技术,而 Ingrasys 将制造一款高速、以太网接入的 SSD 机箱,面向边缘场所、云服务提供商和超大规模数据中心使用。
总部位于台湾的 Ingrasys 是 Foxconn 的子公司,专门为超大规模数据中心和数据中心设计和制造服务器、存储系统、 AI 加速器以及散热系统。Western Digital 原是一家磁盘驱动器制造商,其 NAND/SSD 业务已拆分为 Sandisk。双方表示,Ingrasys 的机架顶 ( TOR ) 以太网闪存集群 ( EBOF ) 将 “提供分布式存储于网络边缘,实现更低延迟的存储访问,从而减少对独立存储网络的需求,并避免频繁访问集中存储阵列。”
Western Digital 平台业务副总裁兼总经理 Kurt Chan 表示: “与 Ingrasys 合作,我们持续加速向解耦基础设施的转变,共同开发专为满足 AI 及现代工作负载数据需求而设计的前沿、基于织构连接的解决方案。此次合作汇聚了两位在存储基础设施现代化领域的领导者,旨在提供灵活、可扩展的架构,为客户带来全新层次的效率与性能。”
Western Digital 为什么会涉足充满 SSD 的存储机箱呢?这要追溯到 2019 年,当时 Western Digital 同时生产磁盘和 SSD,并收购了 Kazan Networks 的 NVMe-oF 以太网技术。基于此,其开发了支持 RDMA 的 RapidFlex 控制器/网络接口卡。RapidFlex C2000 织构桥 ( 搭载 A2000 ASIC ) 作为 PCIe 适配器,通过以太网导出 PCIe 总线,配备 2 个 100 GbitE 端口,连接 16 条 PCIe Gen 4 通道。C2000 可在发起器和目标模式下运行。最新的 RapidFlex C2110 是一款 SFF-TA-1008 到 SFF-8639 的中介器,专为适配 Ingrasys ES2000 和 ES2100 的 EBOF 机箱而设计。
2023 年,Western Digital 推出了 OpenFlex 以太网 NVMe-oF 接入的 Just a Bunch of Flash ( JBOF ) 系统,该系统是一款 2RU x 24 盘位的解耦机箱——Data24 3200 外壳,将双端口 NVMe SSD 与其支持 RoCE 及 NVMe/TCP 的 RapidFlex 织构桥集成在一起。该 Data24 3200 机箱能够直接连接最多六台服务器主机,从而不再需要交换机设备。一年后,Western Digital 展示了其在 Nvidia GPUDirect 连接下实现的读写 I/O 性能,速度超越了 NetApp 的 ONTAP 或 BeeGFS 阵列。
最初推出 OpenFlex 系统的构想,是为销售 Western Digital 自身的 SSD 产品而将其打包在 JBOF 机箱内。但此后,NAND+SSD 业务已经剥离,成为 Sandisk,而 Western Digital 现仅致力于磁盘驱动器制造,其磁盘驱动器收入约占最近一个季度总收入的 95%。无论从哪个角度看,如今的 RapidFlex/OpenFlex 业务都已成为一个外围业务。有趣的是,Sandisk 业务并未获得适用于 NVMe JBOF 接入的 RapidFlex 桥接技术,也许 Western Digital 未来将推出支持 NVMe 接入的磁盘驱动器。
Western Digital 声称,其 RapidFlex 设备是 “唯一基于大规模硬件加速,并将固件从性能路径中剔除的 NVMe-oF 桥接设备。I/O 的读写负载通过适配器以极低延迟和直接的以太网连接传输。” 对于 Ingrasys 来说, “这实现了 NVMe SSD 在解耦架构中无缝、高性能的集成,从而使存储资源可以独立于计算资源实现高效扩展。”
Ingrasys 总裁 Benjamin Ting 表示: “通过将我们在可扩展系统集成方面的专长与 Western Digital 在存储技术领域的领先地位相结合,我们正在构建面向未来、基于织构连接的解决方案基础,以满足 AI 及解耦基础设施不断演变的需求。我们相信,这次合作只是共同创新持久旅程的起点。”
Ingrasys 的机架顶 ( TOR ) EBOF 定于 2027 年上市。这意味着距离产生收益还有相当一段时间。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。