软件定义的高性能全闪存存储公司PEAK:AIO正在采用并行NFS(pNFS)技术,将产品从单节点系统发展为横向扩展的解决方案。
该公司CTO兼创始人Mark Klarzynski表示:"最重要的是横向扩展能力。而现在更大的目标是替代Lustre。我不想批评Lustre,但它已经有些老旧了,pNFS一直是我们的重点。"
Klarzynski透露:"我们在pNFS上已经工作了大约18个月。很幸运能够与洛斯阿拉莫斯国家实验室合作,最近还与卡内基梅隆大学在超大规模方面进行合作,试图让pNFS成为现实的HPC替代方案,一个现代化的文件系统。"
在NFS版本3、4和4.1中,元数据和数据共享单一的I/O路径。为NFS添加并行性需要额外的元数据,比如指定文件的哪些部分位于哪个数据服务器上。通过pNFS,元数据和数据在不同的I/O路径上处理。元数据服务器处理来自客户端的所有元数据活动,而数据服务器为数据访问提供直接路径。支持pNFS的供应商,如NetApp和Hammerspace,都设计了自己的元数据方案并编写了自己的元数据代码。
Klarzynski表示:"我们采取的大胆举措是实际将pNFS元数据软件开源。我们两周前在MSST会议上宣布了这一消息。"这是将NFS转变为并行NFS的主要软件。
他解释说:"从商业角度来说,你可能会问为什么要这样做?但实际上,要让一个新标准达到我们在市场上需要的水平,需要的不仅仅是我们。"
CEO Roger Cummings表示赞同:"我们也从客户那里听到了这样的声音,还有世界各国政府。这些Lustre和NFS系统正变得如此庞大,他们需要可以替代的东西,而且不能被任何单一供应商锁定。"
Klarzynski说:"你必须更加开放。你需要标准被采用,如果我们拥抱它,pNFS Flex Files有着惊人的机会。我们从NFS社区获得了很好的反响,NFS的联合创始人都在那里。所以他们开始贡献。"
pNFS Flex Files的理念是为pNFS提供灵活的文件布局,其中数据存储设备与元数据服务器的交互有限。它还支持客户端镜像以进行文件复制。
在性能方面,Klarzynski表示:"我们正在做一些卓越的工作。使用单个2RU系统,现在可以达到每秒320GB,并且在我们尝试的每个系统上都能线性扩展。"
Cummings补充说:"你可以把这个构建块叠加在一起;你可以向上和向下扩展。当我们的文件系统正式发布时,你会看到我们的软件,它将具有AI数据服务器,文件系统软件,并且会立即识别上线的其他节点。客户扩展将会非常容易。"
当被问及CXL和快速对象存储访问时,Klarzynski回答:"是的,速度会大大提升。不一定总是在带宽方面(这是每个人衡量的方式),但肯定在延迟方面。当我们谈论GPU时,这确实是它们的一大挑战,每个人都在关注KV缓存。这是新热点。但现实是,GPU内部有超快内存,但数量有限。"
"随着GPU处理越来越多的任务,它们需要更多内存,大多数都将其外包给本地NVMe或网络连接的NVMe。这样做是可以的,但如果你有一千个GPU,这就不够快了。我们希望能够在前面放置CXL。"
关于对象存储,Klarzynski表示:"我们正在重新制作该协议的服务方式,几乎是以并行的方式。这几乎就像并行NFS;并行S3,虽然不完全一样,但差不多。采用相同的理念,你可以购买一个盒子,然后如果你想要另一个盒子,就添加上去,它会横向扩展。你不必在开始时就投资一大堆。"
这意味着PEAK:AIO的数据服务器可以成为统一的块、文件和对象协议系统,一个非常快的Ceph替代方案。
Q&A
Q1:pNFS相比传统NFS有什么优势?
A:pNFS通过将元数据和数据分离到不同的I/O路径来实现并行处理。元数据服务器处理所有元数据活动,而数据服务器提供数据访问的直接路径,大大提高了性能和扩展性。
Q2:PEAK:AIO为什么要将pNFS元数据软件开源?
A:公司认为要让新标准达到市场需要的水平,需要的不仅仅是他们一家公司。开源有助于pNFS标准的广泛采用,避免客户被单一供应商锁定,特别是在大型系统部署中。
Q3:PEAK:AIO的数据服务器性能如何?
A:单个2RU系统可以达到每秒320GB的性能,并且能够线性扩展。该系统可以统一支持块、文件和对象协议,成为Ceph的高性能替代方案。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。