洛斯阿拉莫斯国家实验室与SK海力士将在下周的闪存峰会上展示合作开发的计算存储SSD,号称能通过对键值存储数据的索引将模拟分析速度提升三个数量级。
洛斯阿拉莫斯国家实验室专门负责美国核武库的安全保障与研究工作。大部分研究当然不可能以真实核爆的形式进行,因此该实验室高度依赖于高性能计算(HPC)和模拟。相关数据能够会以文件的形式进行存储和分析,但实验室工作人员希望能将模拟输出数据转化为基于记录和列的存储模式,从而更好地对接大数据分析工具。
该国家实验室高性能计算部门负责人Gary Grider在一份声明中表示,“将我们的大规模物理模拟数据,从基于文件的I/O格式转换为记录/列索引I/O,确实带来了令人难以置信的模拟分析与输出加速效果。”
SK海力士KV-CSD原型设备,使用长EDSFF标尺状设计,通过带状线缆直连处理器。
该实验室将通过其DeltaFS并行文件系统技术,经由索引缩减查询数据总量,借此将模拟输出的分析速度提高达1000倍。
所谓计算存储,就是通过直连存储驱动器的处理器执行低级、重复性处理操作,最大限度减少主机服务器上的数据移动量,借此减轻主机服务器处理器的负担、显著加快处理速度。如果在存储驱动器上引入并行处理,速度则有望得到进一步提升。
关系数据库会将数据记录按行和列的形式加以存储,再通过行:列地址访问每条数据记录。而以Redis和RocksDB为代表的键值数据库,则是用唯一的键来存储对应记录(值)。其中每条记录都体现为一个键值对的形式,用户可以用键来检索记录内容。
SK海力士的研究工程师们在NVMe SSD上实现了键值存储,不再需要传统基于块的闪存转换层,并在原型设计中将索引功能推送至直连驱动器的处理器。该处理器运行有实验室的安全科学应用程序,能够在检索分析时将数据移动量降低几个数量级,因此带来巨大的运行速度提升。
SK海力士的索引功能还支持排序范围查询与点查询,这些都是模拟输出数据分析中的常见操作。范围查询就是查找驱动器中对应值介于上限和下限之间的所有记录,而点查询则是查找具有特定值的记录。
Grider解释道,“本次演示表明,完全可以构建一个有序KV-CSD,将数据的排序与索引近可能靠近存储设备的所在位置,通过缩短计算与存储间距离的方式最大限度提高从动态索引中检索数据的优势。排序功能也非常重要,能够支持计算科学应用中常见的范围查询及点查询等键值存储需求。”
SK海力士解决方案开发负责人Charles Ahn也表示,“随着大规模仿真数据与大数据分析类负载的增加,这部分社区迫切需要理想的解决方案。我们很高兴能够就这一高性能创新课题,与洛斯阿拉莫斯国家实验室继续保持研究合作。”
洛斯阿拉莫斯国家实验室与SK海力士已经就KV-CSD的设计、实现和评估达成谅解备忘录。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面