DAOS是英特尔在Optane时代开发的并行文件系统,如今这个"不受待见"的产品正凭借其卓越性能被Enakta Labs和DAOS基金会的其他成员重新激活。
分布式异步对象存储软件DAOS的发展历程
我们在四月份曾报道过DAOS(分布式异步对象存储软件),当时提到DAOS基金会于2023年底由DAOS用户阿贡国家实验室、Enakta Labs、谷歌、HPE(Cray部门)和英特尔共同成立,VDURA于去年加入。值得注意的是,采用Optane模式的Aurora DAOS系统在2023年赢得了IO500生产环境总体得分榜首,输出带宽达到1.3 TBps。显然,DAOS具有卓越的性能表现。随着Optane的消失,DAOS已经重新架构,使用快速SSD作为元数据存储,性能基本保持不变。
DAOS面临的市场竞争环境
作为开源并行文件系统,DAOS必须在众多竞争产品中争夺关注度,包括Storage Scale(IBM大力发展的GFS)、Lustre等重量级产品,以及BeeGFS、Quobyte和VDURA的PanFS。这些系统都专注于高性能计算领域,拥有相当广泛的采用度,特别是Storage Scale和Lustre。而据我们了解,DAOS的采用相对有限,主要被一些重视其高性能和开源特性的机构使用,Aurora超级计算机系统就是典型例子。
这些竞争系统也都在响应企业对AI工作负载的需求,为GPU服务器系统提供高带宽的文件和对象数据流。这使它们与其他英伟达验证的存储供应商产生竞争,如NetApp、Pure Storage、WEKA和VAST Data,更不用说戴尔和HPE。所有这些高性能计算和企业快速存储供应商都已建立完善,拥有大量的开发和支持团队,以及营销预算。而DAOS作为"孤儿"产品,这些都没有。
Enakta Labs的商业化努力
DAOS确实拥有的是其卓越的性能、技术可信度和开源特性。
Denis Nuja是英国Enakta Labs的创始人,拥有丰富的Linux相关履历。我们与他会面讨论了DAOS的现状和发展方向。他表示,Enakta希望将DAOS商业化,公司基于DAOS开发了Enakta数据平台产品。Enakta增加了对S3、SMB、NFS的支持,并针对AI工作负载支持PyTorch。由于它同时支持块、文件和对象存储,我们可以将DAOS视为新的Ceph。公司已与Kioxia和超微合作发布了参考架构。
Nuja认为,DAOS的潜在采用者包括新兴云服务商和主权云。由于DAOS是开源的,不存在厂商锁定问题,而且可以说它比竞争软件有更好的带宽和延迟数据,这意味着它能让昂贵的GPU集群保持更高的利用率。Enakta还能提供直接的工程师级支持。
性能优势与成本考量
虽然DAOS可以为客户节省高性能存储软件成本,但Nuja坦言,GPU及其内存、电力和冷却成本如此高昂,存储软件的节省可能只是舍入误差。性能(即延迟和带宽)是客户对存储软件的关键需求,其次是可靠性和响应迅速的专业支持。成本反而是次要考虑因素。
据我们了解,Enakta正在一个价值5亿美元的GPU集群上对其基于DAOS的最新版本软件进行基准测试,该集群属于一家大型云运营商,初步结果令人印象深刻。我们想知道是否有可能进行另一次IO500测试。
未来展望与挑战
Nuja提出了一个观点:基于DAOS构建的商业化、企业级版本可以在通用硬件上运行,性能甚至可以超越世界上最强大的超级计算机存储系统。我们谈论的是一批超微级GPU服务器,配备NVMe SSD并运行Linux。我们认为,DAOS需要展示出实质性的性能优势,才能说服潜在客户将目光从DDN、Pure、WEKA、VAST等资金雄厚、营销精良的公司转移过来。
这让我们期待即将到来的2025年超级计算大会(11月16-21日在密苏里州圣路易斯举行),届时将公布官方IO500基准测试结果。这个"孤儿"产品可能会大放异彩。
Q&A
Q1:DAOS是什么?有什么特殊之处?
A:DAOS是分布式异步对象存储软件,原本是英特尔在Optane时代开发的并行文件系统。它最大的特点是拥有卓越的性能表现,Aurora DAOS系统曾在2023年赢得IO500生产环境总体得分榜首,输出带宽达到1.3 TBps。
Q2:Enakta Labs如何将DAOS商业化?
A:Enakta Labs基于DAOS开发了Enakta数据平台产品,增加了对S3、SMB、NFS的支持,并针对AI工作负载支持PyTorch。同时支持块、文件和对象存储,可以视为新的Ceph替代方案,并能提供直接的工程师级支持。
Q3:DAOS面临哪些市场竞争挑战?
A:DAOS需要与Storage Scale、Lustre、BeeGFS等成熟的并行文件系统竞争,这些竞争对手都有完善的开发支持团队和营销预算。作为"孤儿"产品,DAOS缺乏这些资源,需要通过展示实质性的性能优势来吸引客户。
好文章,需要你的鼓励
Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。
字节跳动发布Seedream 4.0多模态图像生成系统,实现超10倍速度提升,1.4秒可生成2K高清图片。该系统采用创新的扩散变换器架构,统一支持文字生成图像、图像编辑和多图合成功能,在两大国际竞技场排行榜均获第一名,支持4K分辨率输出,已集成至豆包、剪映等平台,为内容创作带来革命性突破。
英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。
红帽公司研究团队提出危险感知系统卡(HASC)框架,为AI系统建立类似"体检报告"的透明度文档,记录安全风险、防护措施和问题修复历史。同时引入ASH识别码系统,为AI安全问题建立统一标识。该框架支持自动生成和持续更新,与ISO/IEC 42001标准兼容,旨在平衡透明度与商业竞争,建立更可信的AI生态系统,推动行业协作和标准化。