软件定义的高性能全闪存存储公司PEAK:AIO正在采用并行NFS(pNFS)技术,将产品从单节点系统发展为横向扩展的解决方案。
该公司CTO兼创始人Mark Klarzynski表示:"最重要的是横向扩展能力。而现在更大的目标是替代Lustre。我不想批评Lustre,但它已经有些老旧了,pNFS一直是我们的重点。"
Klarzynski透露:"我们在pNFS上已经工作了大约18个月。很幸运能够与洛斯阿拉莫斯国家实验室合作,最近还与卡内基梅隆大学在超大规模方面进行合作,试图让pNFS成为现实的HPC替代方案,一个现代化的文件系统。"
在NFS版本3、4和4.1中,元数据和数据共享单一的I/O路径。为NFS添加并行性需要额外的元数据,比如指定文件的哪些部分位于哪个数据服务器上。通过pNFS,元数据和数据在不同的I/O路径上处理。元数据服务器处理来自客户端的所有元数据活动,而数据服务器为数据访问提供直接路径。支持pNFS的供应商,如NetApp和Hammerspace,都设计了自己的元数据方案并编写了自己的元数据代码。
Klarzynski表示:"我们采取的大胆举措是实际将pNFS元数据软件开源。我们两周前在MSST会议上宣布了这一消息。"这是将NFS转变为并行NFS的主要软件。
他解释说:"从商业角度来说,你可能会问为什么要这样做?但实际上,要让一个新标准达到我们在市场上需要的水平,需要的不仅仅是我们。"
CEO Roger Cummings表示赞同:"我们也从客户那里听到了这样的声音,还有世界各国政府。这些Lustre和NFS系统正变得如此庞大,他们需要可以替代的东西,而且不能被任何单一供应商锁定。"
Klarzynski说:"你必须更加开放。你需要标准被采用,如果我们拥抱它,pNFS Flex Files有着惊人的机会。我们从NFS社区获得了很好的反响,NFS的联合创始人都在那里。所以他们开始贡献。"
pNFS Flex Files的理念是为pNFS提供灵活的文件布局,其中数据存储设备与元数据服务器的交互有限。它还支持客户端镜像以进行文件复制。
在性能方面,Klarzynski表示:"我们正在做一些卓越的工作。使用单个2RU系统,现在可以达到每秒320GB,并且在我们尝试的每个系统上都能线性扩展。"
Cummings补充说:"你可以把这个构建块叠加在一起;你可以向上和向下扩展。当我们的文件系统正式发布时,你会看到我们的软件,它将具有AI数据服务器,文件系统软件,并且会立即识别上线的其他节点。客户扩展将会非常容易。"
当被问及CXL和快速对象存储访问时,Klarzynski回答:"是的,速度会大大提升。不一定总是在带宽方面(这是每个人衡量的方式),但肯定在延迟方面。当我们谈论GPU时,这确实是它们的一大挑战,每个人都在关注KV缓存。这是新热点。但现实是,GPU内部有超快内存,但数量有限。"
"随着GPU处理越来越多的任务,它们需要更多内存,大多数都将其外包给本地NVMe或网络连接的NVMe。这样做是可以的,但如果你有一千个GPU,这就不够快了。我们希望能够在前面放置CXL。"
关于对象存储,Klarzynski表示:"我们正在重新制作该协议的服务方式,几乎是以并行的方式。这几乎就像并行NFS;并行S3,虽然不完全一样,但差不多。采用相同的理念,你可以购买一个盒子,然后如果你想要另一个盒子,就添加上去,它会横向扩展。你不必在开始时就投资一大堆。"
这意味着PEAK:AIO的数据服务器可以成为统一的块、文件和对象协议系统,一个非常快的Ceph替代方案。
Q&A
Q1:pNFS相比传统NFS有什么优势?
A:pNFS通过将元数据和数据分离到不同的I/O路径来实现并行处理。元数据服务器处理所有元数据活动,而数据服务器提供数据访问的直接路径,大大提高了性能和扩展性。
Q2:PEAK:AIO为什么要将pNFS元数据软件开源?
A:公司认为要让新标准达到市场需要的水平,需要的不仅仅是他们一家公司。开源有助于pNFS标准的广泛采用,避免客户被单一供应商锁定,特别是在大型系统部署中。
Q3:PEAK:AIO的数据服务器性能如何?
A:单个2RU系统可以达到每秒320GB的性能,并且能够线性扩展。该系统可以统一支持块、文件和对象协议,成为Ceph的高性能替代方案。
好文章,需要你的鼓励
本文揭示了AI时代CIO的七项关键行为特征,基于对多位CIO和AI专家的深度访谈。专家指出,AI精通的CIO需具备实用AI素养、战略视野和变革领导力,能将技术与业务战略对齐,建立强大数据治理基础。文章详细解析了分析型AI、生成式AI和智能体AI三大技术领域,强调数据基础的重要性,并提出CIO应从项目思维转向产品思维,通过跨职能团队实现端到端价值交付。
斯坦福大学等机构联合开发的CIFT系统首次解决了机器人"近视眼"问题,通过精确控制真实数据和合成数据的混合比例,让机器人在陌生环境中的表现提升54%以上。该系统包含多视角视频增强引擎MVAug和数据组合优化策略,能够预测数据失效的"去相干点",确保机器人学习真正重要的任务特征而非环境表象,为实用化通用机器人奠定了重要基础。
尽管苹果在AI竞赛中看似落后,但其私有云计算基础设施展现了技术优势。当行业为追赶大语言模型而降低隐私标准时,苹果坚持原则,开发出保护用户数据隐私的技术方案。谷歌最新宣布的类似实施方案验证了苹果技术路线的正确性,这可能推动其他AI实验室采用相同做法,为用户隐私带来重大胜利。
香港中文大学研究团队开发的Search-R3系统成功解决了大语言模型推理与搜索分离的问题,通过两阶段训练让AI在深度思考过程中直接生成搜索向量。该系统在多个领域测试中显著超越现有方法,特别是启用推理后性能提升明显,为AI系统设计提供了推理与搜索统一的新范式,展现了从专门化向通用化发展的重要方向。