软件定义的高性能全闪存存储公司PEAK:AIO正在采用并行NFS(pNFS)技术,将产品从单节点系统发展为横向扩展的解决方案。
该公司CTO兼创始人Mark Klarzynski表示:"最重要的是横向扩展能力。而现在更大的目标是替代Lustre。我不想批评Lustre,但它已经有些老旧了,pNFS一直是我们的重点。"
Klarzynski透露:"我们在pNFS上已经工作了大约18个月。很幸运能够与洛斯阿拉莫斯国家实验室合作,最近还与卡内基梅隆大学在超大规模方面进行合作,试图让pNFS成为现实的HPC替代方案,一个现代化的文件系统。"
在NFS版本3、4和4.1中,元数据和数据共享单一的I/O路径。为NFS添加并行性需要额外的元数据,比如指定文件的哪些部分位于哪个数据服务器上。通过pNFS,元数据和数据在不同的I/O路径上处理。元数据服务器处理来自客户端的所有元数据活动,而数据服务器为数据访问提供直接路径。支持pNFS的供应商,如NetApp和Hammerspace,都设计了自己的元数据方案并编写了自己的元数据代码。
Klarzynski表示:"我们采取的大胆举措是实际将pNFS元数据软件开源。我们两周前在MSST会议上宣布了这一消息。"这是将NFS转变为并行NFS的主要软件。
他解释说:"从商业角度来说,你可能会问为什么要这样做?但实际上,要让一个新标准达到我们在市场上需要的水平,需要的不仅仅是我们。"
CEO Roger Cummings表示赞同:"我们也从客户那里听到了这样的声音,还有世界各国政府。这些Lustre和NFS系统正变得如此庞大,他们需要可以替代的东西,而且不能被任何单一供应商锁定。"
Klarzynski说:"你必须更加开放。你需要标准被采用,如果我们拥抱它,pNFS Flex Files有着惊人的机会。我们从NFS社区获得了很好的反响,NFS的联合创始人都在那里。所以他们开始贡献。"
pNFS Flex Files的理念是为pNFS提供灵活的文件布局,其中数据存储设备与元数据服务器的交互有限。它还支持客户端镜像以进行文件复制。
在性能方面,Klarzynski表示:"我们正在做一些卓越的工作。使用单个2RU系统,现在可以达到每秒320GB,并且在我们尝试的每个系统上都能线性扩展。"
Cummings补充说:"你可以把这个构建块叠加在一起;你可以向上和向下扩展。当我们的文件系统正式发布时,你会看到我们的软件,它将具有AI数据服务器,文件系统软件,并且会立即识别上线的其他节点。客户扩展将会非常容易。"
当被问及CXL和快速对象存储访问时,Klarzynski回答:"是的,速度会大大提升。不一定总是在带宽方面(这是每个人衡量的方式),但肯定在延迟方面。当我们谈论GPU时,这确实是它们的一大挑战,每个人都在关注KV缓存。这是新热点。但现实是,GPU内部有超快内存,但数量有限。"
"随着GPU处理越来越多的任务,它们需要更多内存,大多数都将其外包给本地NVMe或网络连接的NVMe。这样做是可以的,但如果你有一千个GPU,这就不够快了。我们希望能够在前面放置CXL。"
关于对象存储,Klarzynski表示:"我们正在重新制作该协议的服务方式,几乎是以并行的方式。这几乎就像并行NFS;并行S3,虽然不完全一样,但差不多。采用相同的理念,你可以购买一个盒子,然后如果你想要另一个盒子,就添加上去,它会横向扩展。你不必在开始时就投资一大堆。"
这意味着PEAK:AIO的数据服务器可以成为统一的块、文件和对象协议系统,一个非常快的Ceph替代方案。
Q&A
Q1:pNFS相比传统NFS有什么优势?
A:pNFS通过将元数据和数据分离到不同的I/O路径来实现并行处理。元数据服务器处理所有元数据活动,而数据服务器提供数据访问的直接路径,大大提高了性能和扩展性。
Q2:PEAK:AIO为什么要将pNFS元数据软件开源?
A:公司认为要让新标准达到市场需要的水平,需要的不仅仅是他们一家公司。开源有助于pNFS标准的广泛采用,避免客户被单一供应商锁定,特别是在大型系统部署中。
Q3:PEAK:AIO的数据服务器性能如何?
A:单个2RU系统可以达到每秒320GB的性能,并且能够线性扩展。该系统可以统一支持块、文件和对象协议,成为Ceph的高性能替代方案。
好文章,需要你的鼓励
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
论文对比了AI通过图形界面和命令行两种方式完成桌面任务的差异,发现两者各有瓶颈:GUI受限于视觉交互可靠性,命令行受限于技能库覆盖率。
本文提出一种评估人工智能风险的新方法,借鉴生态学与演化论视角,从理论生态模型中推导出三项风险指标,涵盖种群模型与生态系统模型。研究旨在为AI治理策略提供量化工具,并对分析局限性及政策改进方向进行了深入探讨,为构建更科学的AI风险评估体系提供参考框架。
复旦大学团队提出ICWM框架,让机器人在任务前通过随机探测动作自主感知当前视角和物理配置,无需重新训练即可适应新摄像头角度,真实机器人测试成功率最高提升175%。