软件定义的高性能全闪存存储公司PEAK:AIO正在采用并行NFS(pNFS)技术,将产品从单节点系统发展为横向扩展的解决方案。
该公司CTO兼创始人Mark Klarzynski表示:"最重要的是横向扩展能力。而现在更大的目标是替代Lustre。我不想批评Lustre,但它已经有些老旧了,pNFS一直是我们的重点。"
Klarzynski透露:"我们在pNFS上已经工作了大约18个月。很幸运能够与洛斯阿拉莫斯国家实验室合作,最近还与卡内基梅隆大学在超大规模方面进行合作,试图让pNFS成为现实的HPC替代方案,一个现代化的文件系统。"
在NFS版本3、4和4.1中,元数据和数据共享单一的I/O路径。为NFS添加并行性需要额外的元数据,比如指定文件的哪些部分位于哪个数据服务器上。通过pNFS,元数据和数据在不同的I/O路径上处理。元数据服务器处理来自客户端的所有元数据活动,而数据服务器为数据访问提供直接路径。支持pNFS的供应商,如NetApp和Hammerspace,都设计了自己的元数据方案并编写了自己的元数据代码。
Klarzynski表示:"我们采取的大胆举措是实际将pNFS元数据软件开源。我们两周前在MSST会议上宣布了这一消息。"这是将NFS转变为并行NFS的主要软件。
他解释说:"从商业角度来说,你可能会问为什么要这样做?但实际上,要让一个新标准达到我们在市场上需要的水平,需要的不仅仅是我们。"
CEO Roger Cummings表示赞同:"我们也从客户那里听到了这样的声音,还有世界各国政府。这些Lustre和NFS系统正变得如此庞大,他们需要可以替代的东西,而且不能被任何单一供应商锁定。"
Klarzynski说:"你必须更加开放。你需要标准被采用,如果我们拥抱它,pNFS Flex Files有着惊人的机会。我们从NFS社区获得了很好的反响,NFS的联合创始人都在那里。所以他们开始贡献。"
pNFS Flex Files的理念是为pNFS提供灵活的文件布局,其中数据存储设备与元数据服务器的交互有限。它还支持客户端镜像以进行文件复制。
在性能方面,Klarzynski表示:"我们正在做一些卓越的工作。使用单个2RU系统,现在可以达到每秒320GB,并且在我们尝试的每个系统上都能线性扩展。"
Cummings补充说:"你可以把这个构建块叠加在一起;你可以向上和向下扩展。当我们的文件系统正式发布时,你会看到我们的软件,它将具有AI数据服务器,文件系统软件,并且会立即识别上线的其他节点。客户扩展将会非常容易。"
当被问及CXL和快速对象存储访问时,Klarzynski回答:"是的,速度会大大提升。不一定总是在带宽方面(这是每个人衡量的方式),但肯定在延迟方面。当我们谈论GPU时,这确实是它们的一大挑战,每个人都在关注KV缓存。这是新热点。但现实是,GPU内部有超快内存,但数量有限。"
"随着GPU处理越来越多的任务,它们需要更多内存,大多数都将其外包给本地NVMe或网络连接的NVMe。这样做是可以的,但如果你有一千个GPU,这就不够快了。我们希望能够在前面放置CXL。"
关于对象存储,Klarzynski表示:"我们正在重新制作该协议的服务方式,几乎是以并行的方式。这几乎就像并行NFS;并行S3,虽然不完全一样,但差不多。采用相同的理念,你可以购买一个盒子,然后如果你想要另一个盒子,就添加上去,它会横向扩展。你不必在开始时就投资一大堆。"
这意味着PEAK:AIO的数据服务器可以成为统一的块、文件和对象协议系统,一个非常快的Ceph替代方案。
Q&A
Q1:pNFS相比传统NFS有什么优势?
A:pNFS通过将元数据和数据分离到不同的I/O路径来实现并行处理。元数据服务器处理所有元数据活动,而数据服务器提供数据访问的直接路径,大大提高了性能和扩展性。
Q2:PEAK:AIO为什么要将pNFS元数据软件开源?
A:公司认为要让新标准达到市场需要的水平,需要的不仅仅是他们一家公司。开源有助于pNFS标准的广泛采用,避免客户被单一供应商锁定,特别是在大型系统部署中。
Q3:PEAK:AIO的数据服务器性能如何?
A:单个2RU系统可以达到每秒320GB的性能,并且能够线性扩展。该系统可以统一支持块、文件和对象协议,成为Ceph的高性能替代方案。
好文章,需要你的鼓励
为了确保生成内容的专业度,夸克算法团队已经与通义实验室成立了联合研发小组,专注于搜索推理与可信生成。
这项由伊利诺伊大学厦巴纳-香槟分校和滑铁卢大学联合完成的研究,开发了名为VideoScore2的AI视频评估系统,能够像人类专家一样从视觉质量、文本对齐和物理一致性三个维度对AI生成视频进行详细评估,并提供透明的分析过程。该系统在多项测试中显著超越现有评估工具,在准确率上提升近6个百分点,为AI视频行业提供了标准化、可解释的质量评估解决方案,有望推动整个领域的技术进步。
OpenAI于周二发布AI浏览器ChatGPT Atlas,目标是让ChatGPT成为搜索和问答的首选界面而非谷歌。该浏览器目前仅支持Mac,但正在开发Windows、iOS和Android版本。Atlas将ChatGPT设为默认搜索选项,并具备记忆功能,可结合浏览历史提供个性化答案。与其他AI浏览器不同,Atlas更专注于强化ChatGPT生态系统,为OpenAI提供更多用户数据和分发控制权,而非改善传统浏览体验。
滑铁卢大学研究团队提出批评强化学习新方法,让AI模型在学习编程的同时学会批评代码质量。CRITIQUE-CODER模型采用8:2混合训练,不仅保持编程能力还获得代码评价能力。实验显示,该方法让小参数模型超越大模型,4B参数版本在LiveCodeBench达59分,超越基础模型4.8分。更重要的是,批评能力可迁移到逻辑推理等其他领域,为AI训练范式转变指明新方向。