Lightbits声称在使用Supermicro服务器硬件进行的基准测试验证中,展示了容器化事务处理领域最快的共享块存储性能。
Lightbits提供通过NVMe/TCP访问的分解式虚拟SAN块存储,可在本地或Azure、AWS、Oracle云端运行。在此次测试中,系统运行在Supermicro CloudDC A+ Server AS-1116CS-TN服务器的本地环境中。两家公司已制定参考架构,涵盖使用Lightbits与Supermicro和Intel(但不包括AMD)部署高性能、可扩展Kubernetes服务器系统。
Lightbits联合创始人兼首席战略官Kam Eshghi表示:"我们联合测试中验证的卓越性能,结合新的Kubernetes参考架构,为客户提供了现代化数据基础设施的强大、灵活且经济高效的路径。"
Supermicro解决方案与技术副总裁Lawrence Lam说:"我们已验证H14服务器与Lightbits存储的组合,并发布参考架构,展示该组合在I/O性能、低延迟响应性和硬件效率方面的显著进步。该解决方案为客户提供用于事务处理和其他高要求工作负载的最高性能共享块存储。"
基准测试配置为:1个AMD EPYC 9575F处理器(64核心,128线程),768GB DDR5(6400MT/s)内存,一个Mellanox MT2910 ConnectX-7网卡,每台服务器配置8个三星3.84TB NVMe SSD(PM1743)。操作系统为Rocky Linux 9.4。
Supermicro和Lightbits表示其基准测试显示:
4K随机读取达到360万IOPS——适用于金融交易平台和实时分析等性能敏感应用。
4K随机写入达到160万IOPS——满足日志记录、日志管理和快速更新频繁变化数据集的需求。
128K顺序读取带宽达54.7GBps——为AI/机器学习训练、视频渲染和科学模拟等需要大块读取的工作负载提供高吞吐量数据传输。
128K顺序写入带宽达16.7GBps——适用于生成大型顺序数据流的应用,包括数据摄取管道和数据仓库。
1RU Supermicro CloudDC A+服务器具有PCIe Gen 5总线和8个热插拔NVMe SATA/SAS驱动器槽。它最多可支持8个M.2 NVMe PCIe Gen 4 SSD,容量从400GB到3.8TB不等,最大可达30.4TB。
Lightbits和Supermicro声称其参考架构可以"无缝将Lightbits存储集成到现有Kubernetes部署中,无需大幅重新架构,为容器化应用和KubeVirt虚拟机提供向软件定义高性能块存储的清晰升级路径"。客户可获得即用型优化系统,"从第一天起就最小化部署复杂性并最大化性能,适用于金融交易平台、实时分析、AI/机器学习训练、电子商务、数据摄取管道和仓库以及科学模拟等广泛用例。"
参考架构验证总共使用6台物理服务器——3台专门运行Lightbits存储节点,3台配置为Kubernetes控制平面和工作节点。
从参考架构文档中发现,它同时涉及Ceph和Lightbits,两者都提供块存储软件。文档指出:"Ceph提供弹性和可扩展的存储解决方案,适用于需要传统文件和对象存储能力的数据密集型应用...同时,Lightbits引入针对NVMe/TCP优化的高性能软件定义存储层,提供低延迟和高吞吐量块存储能力。"实际上,根据工作负载要求,Lightbits补充或替代Ceph传统提供的块存储功能。
Lightbits软件现已在Supermicro CloudDC A+ Server AS-1116CS-TN上可用。
据了解,还有第二个AMD驱动的参考架构。Lightbits的发言人表示:"我们在AMD和Intel平台上都验证了Lightbits,以展示跨不同架构的通用性:AMD(H14)专注于单插槽设置,利用高核心密度和效率实现成本优化的高性能场景;Intel(K8)选择双插槽设置,因其广泛的企业采用率、平衡的性能和与多样化工作负载的兼容性。"
关于在参考架构文档中同时使用Ceph和Lightbits的原因,发言人解释:"Ceph和Lightbits的结合使用解决了Kubernetes部署中互补的存储需求。Ceph设计为可扩展的分布式存储,适用于延迟敏感性较低的工作负载,适合对象、归档和大规模数据保留。Lightbits提供高性能、低延迟的NVMe/TCP块存储,适用于要求苛刻的Kubernetes工作负载,如事务数据库和实时分析。"
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。