洛斯阿拉莫斯国家实验室与SK海力士将在下周的闪存峰会上展示合作开发的计算存储SSD,号称能通过对键值存储数据的索引将模拟分析速度提升三个数量级。
洛斯阿拉莫斯国家实验室专门负责美国核武库的安全保障与研究工作。大部分研究当然不可能以真实核爆的形式进行,因此该实验室高度依赖于高性能计算(HPC)和模拟。相关数据能够会以文件的形式进行存储和分析,但实验室工作人员希望能将模拟输出数据转化为基于记录和列的存储模式,从而更好地对接大数据分析工具。
该国家实验室高性能计算部门负责人Gary Grider在一份声明中表示,“将我们的大规模物理模拟数据,从基于文件的I/O格式转换为记录/列索引I/O,确实带来了令人难以置信的模拟分析与输出加速效果。”
SK海力士KV-CSD原型设备,使用长EDSFF标尺状设计,通过带状线缆直连处理器。
该实验室将通过其DeltaFS并行文件系统技术,经由索引缩减查询数据总量,借此将模拟输出的分析速度提高达1000倍。
所谓计算存储,就是通过直连存储驱动器的处理器执行低级、重复性处理操作,最大限度减少主机服务器上的数据移动量,借此减轻主机服务器处理器的负担、显著加快处理速度。如果在存储驱动器上引入并行处理,速度则有望得到进一步提升。
关系数据库会将数据记录按行和列的形式加以存储,再通过行:列地址访问每条数据记录。而以Redis和RocksDB为代表的键值数据库,则是用唯一的键来存储对应记录(值)。其中每条记录都体现为一个键值对的形式,用户可以用键来检索记录内容。
SK海力士的研究工程师们在NVMe SSD上实现了键值存储,不再需要传统基于块的闪存转换层,并在原型设计中将索引功能推送至直连驱动器的处理器。该处理器运行有实验室的安全科学应用程序,能够在检索分析时将数据移动量降低几个数量级,因此带来巨大的运行速度提升。
SK海力士的索引功能还支持排序范围查询与点查询,这些都是模拟输出数据分析中的常见操作。范围查询就是查找驱动器中对应值介于上限和下限之间的所有记录,而点查询则是查找具有特定值的记录。
Grider解释道,“本次演示表明,完全可以构建一个有序KV-CSD,将数据的排序与索引近可能靠近存储设备的所在位置,通过缩短计算与存储间距离的方式最大限度提高从动态索引中检索数据的优势。排序功能也非常重要,能够支持计算科学应用中常见的范围查询及点查询等键值存储需求。”
SK海力士解决方案开发负责人Charles Ahn也表示,“随着大规模仿真数据与大数据分析类负载的增加,这部分社区迫切需要理想的解决方案。我们很高兴能够就这一高性能创新课题,与洛斯阿拉莫斯国家实验室继续保持研究合作。”
洛斯阿拉莫斯国家实验室与SK海力士已经就KV-CSD的设计、实现和评估达成谅解备忘录。
好文章,需要你的鼓励
在“PEC 2025 AI创新者大会暨第二届提示工程峰会”上,一场以“AIGC创作新范式——双脑智能时代:心智驱动的生产力变革”为主题的分论坛,成为现场最具张力的对话空间。
人民大学团队开发了Search-o1框架,让AI在推理时能像侦探一样边查资料边思考。系统通过检测不确定性词汇自动触发搜索,并用知识精炼模块从海量资料中提取关键信息无缝融入推理过程。在博士级科学问题测试中,该系统整体准确率达63.6%,在物理和生物领域甚至超越人类专家水平,为AI推理能力带来突破性提升。
Linux Mint团队计划加快发布周期,在未来几个月推出两个新版本。LMDE 7代号"Gigi"基于Debian 13开发,将包含libAdapta库以支持Gtk4应用的主题功能。新版本将停止提供32位版本支持。同时Cinnamon桌面的Wayland支持持续改进,在菜单、状态小程序和键盘输入处理方面表现更佳,有望成为完整支持Wayland的重要桌面环境之一。
Anthropic研究团队开发的REINFORCE++算法通过采用全局优势标准化解决了AI训练中的"过度拟合"问题。该算法摒弃了传统PPO方法中昂贵的价值网络组件,用统一评价标准替代针对单个问题的局部基准,有效避免了"奖励破解"现象。实验显示,REINFORCE++在处理新问题时表现更稳定,特别是在长文本推理和工具集成场景中展现出优异的泛化能力,为开发更实用可靠的AI系统提供了新思路。