采访:开放闪存平台(OFP)组织旨在用直接访问的闪存卡槽取代全闪存阵列,这些卡槽配备控制器DPU、Linux和并行NFS(pNFS)软件,以及网络连接。这一概要昨天已经公布。我们现在从OFP获得了更多细节和背景说明。
Hammerspace实际上正在主导这一倡议,全球营销负责人Molly Presley向我们介绍了导致OFP组织成立的背景。"随着数据中心设计的演进,特别是在新云、超大规模和大型AI公司中,出现了几个遗留架构无法适应的基础设施限制。AI架构迫切需要专注于电源效率、可扩展性和设计简单性的存储系统,以释放GPU的功耗,扩展到数据容量需求,并快速部署。
"OFP倡议希望看到一个新的解决方案,为存储数据提供最可扩展、最密集的系统,既节能又具有成本效益。随着AI驱动需求从PB规模向EB规模转移,需要比当前基于遗留构建块定义的系统更高效、更可扩展的架构。
"当前默认的共享存储架构和平台在扩展和密度方面存在局限性,使其不适合面临大规模数据增长以支持AI应用的环境需求。客户目前使用的是运行专有存储软件的高功耗服务器,通常由基于磁盘驱动器外形规格而非为闪存密度优化设计的机箱支持。
"当前一代IPU/DPU使这种新的低功耗、高密度外形规格成为可能。通过将它们与闪存优化机箱结合,并利用标准Linux协议在高性能数据服务方面的进步,我们可以提供极其高效的存储解决方案,同时降低成本(即无节点级许可、将服务寿命延长至闪存的八年寿命,而非服务器五年的更新周期,大幅降低功耗、空间和冷却要求)。
"这些单独来看都不是新的,但OFP倡议寻求将卸载引擎、NAND技术和当今可用的Linux功能的进步结合成一个针对紧迫行业需求的设计。这不能通过另一个专有孤岛来实现,因此更广泛的行业参与和采用将是该倡议的基本目标。"
我们向该组织提出了一系列问题,Presley回复了答案。
Blocks & Files:OFP如何获得资金?
OFP:Hammerspace已资助初步工程研究,以探索工作POC/参考设计的选择。ScaleFlux和另外两家SSD供应商(我们尚未获得企业批准在OFP倡议中引用)提供了SSD。Xsight和其他IPU/DPU供应商(我们尚未获得企业批准在OFP倡议中引用)为项目提供了开发板。SK海力士和LANL一直在演示利用本机Linux存储和NFS功能的pNFS能力。总之,倡议成员都在为项目贡献技术和专业知识。
Blocks & Files:OFP如何治理?
OFP:我们正在积极招募合作伙伴,但除了参与者之间的初步工程级合作外,尚未考虑更广泛的治理规则。我们对未来可能参与的现有治理机构有一些概念,并正在为他们准备一些提案。但这些是未来的讨论。
Blocks & Files:OFP成员资格有哪些类别?
OFP:参与分为两类:1)技术提供商;2)最终用户顾问。OFP概念也已与数十个大规模最终用户进行了交流。他们的意见正在被纳入设计考虑中。
Blocks & Files:谁在物理外形规格、软件接口、网络接口、DPU外形规格和接口、电源接口和功率等方面定义OFP卡槽规格?
OFP:最初,Hammerspace已为托盘、卡槽、电气接口、软件、热管理等开发了建议的参考规格。我们正在积极寻求不仅来自倡议成员,还有潜在客户的反馈。其他实施方案也将受到欢迎。
Blocks & Files:OFP卡槽规格是否存在?
OFP:我们有一个初步规格,允许标准和新外形规格的SSD驻留在卡槽中,并正在与倡议合作伙伴组内征求反馈,然后公开发布任何信息。我们预计在2025年下半年进一步公布有关罐体和托盘设计的信息,包括年底前的工作原型公开演示。
Blocks & Files:如何验证OFP卡槽产品规格合规性?
OFP:待定。
Blocks & Files:谁定义OFP托盘规格?
OFP:与上述相同。最初。
Blocks & Files:OFP托盘规格是否存在?
OFP:是的,见上文。
Blocks & Files:OFP托盘规格支持哪些数据中心机架设计?
OFP:第一个参考设计将是EIA 19英寸机架,但我们也有OCP 21英寸机架设计的计划。
Blocks & Files:哪些供应商制造OFP托盘?
OFP:最初只有合同制造商,但与OEM和系统集成商的讨论正在进行中。
Blocks & Files:如何验证OFP托盘产品规格合规性?
OFP:待定。
Blocks & Files:OFP与开放计算项目(OCP)有何关系?
OFP:我们已经在与Meta合作,最终希望将这个OFP倡议纳入OCP。这是最终目标。
我们看到了相当大的行业兴趣,更多合作伙伴加入设计需求的讨论,以及可能的新成员在未来几周加入公共努力。我们也有大量早期客户兴趣。随着倡议成熟度的提高,发布相关信息对于未来几年正在规划的数据中心设计和基础设施战略极其重要。正如您所知,AI方面的大规模投资正在进行中。对新兴架构的可见性在行业以如此飞快速度发展的情况下非常有价值。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。