洛斯阿拉莫斯国家实验室与SK海力士将在下周的闪存峰会上展示合作开发的计算存储SSD,号称能通过对键值存储数据的索引将模拟分析速度提升三个数量级。
洛斯阿拉莫斯国家实验室专门负责美国核武库的安全保障与研究工作。大部分研究当然不可能以真实核爆的形式进行,因此该实验室高度依赖于高性能计算(HPC)和模拟。相关数据能够会以文件的形式进行存储和分析,但实验室工作人员希望能将模拟输出数据转化为基于记录和列的存储模式,从而更好地对接大数据分析工具。
该国家实验室高性能计算部门负责人Gary Grider在一份声明中表示,“将我们的大规模物理模拟数据,从基于文件的I/O格式转换为记录/列索引I/O,确实带来了令人难以置信的模拟分析与输出加速效果。”
SK海力士KV-CSD原型设备,使用长EDSFF标尺状设计,通过带状线缆直连处理器。
该实验室将通过其DeltaFS并行文件系统技术,经由索引缩减查询数据总量,借此将模拟输出的分析速度提高达1000倍。
所谓计算存储,就是通过直连存储驱动器的处理器执行低级、重复性处理操作,最大限度减少主机服务器上的数据移动量,借此减轻主机服务器处理器的负担、显著加快处理速度。如果在存储驱动器上引入并行处理,速度则有望得到进一步提升。
关系数据库会将数据记录按行和列的形式加以存储,再通过行:列地址访问每条数据记录。而以Redis和RocksDB为代表的键值数据库,则是用唯一的键来存储对应记录(值)。其中每条记录都体现为一个键值对的形式,用户可以用键来检索记录内容。
SK海力士的研究工程师们在NVMe SSD上实现了键值存储,不再需要传统基于块的闪存转换层,并在原型设计中将索引功能推送至直连驱动器的处理器。该处理器运行有实验室的安全科学应用程序,能够在检索分析时将数据移动量降低几个数量级,因此带来巨大的运行速度提升。
SK海力士的索引功能还支持排序范围查询与点查询,这些都是模拟输出数据分析中的常见操作。范围查询就是查找驱动器中对应值介于上限和下限之间的所有记录,而点查询则是查找具有特定值的记录。
Grider解释道,“本次演示表明,完全可以构建一个有序KV-CSD,将数据的排序与索引近可能靠近存储设备的所在位置,通过缩短计算与存储间距离的方式最大限度提高从动态索引中检索数据的优势。排序功能也非常重要,能够支持计算科学应用中常见的范围查询及点查询等键值存储需求。”
SK海力士解决方案开发负责人Charles Ahn也表示,“随着大规模仿真数据与大数据分析类负载的增加,这部分社区迫切需要理想的解决方案。我们很高兴能够就这一高性能创新课题,与洛斯阿拉莫斯国家实验室继续保持研究合作。”
洛斯阿拉莫斯国家实验室与SK海力士已经就KV-CSD的设计、实现和评估达成谅解备忘录。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Coursera在2025年连接大会上宣布多项AI功能更新。10月将推出角色扮演功能,通过AI人物帮助学生练习面试技巧并获得实时反馈。新增AI评分系统可即时批改代码、论文和视频作业。同时引入完整性检查和监考系统,通过锁定浏览器和真实性验证打击作弊行为,据称可减少95%的不当行为。此外,AI课程构建器将扩展至所有合作伙伴,帮助教育者快速设计课程。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。