洛斯阿拉莫斯实验室联手希捷，尝试将计算与机械硬盘相结合

过去几年来，阿拉莫斯实验室一直在想办法让分析负载跟数据尽可能接近，甚至考虑把计算转移到闪存或硬盘控制器上。

用于模拟各类场景的高性能计算（HPC）类工作负载，总会产生大量有待筛选的数据。事实上，这也正是HPC与AI的最大区别：前者输入数据少，输出数据多；后者则需要输入大量信息，通过训练转化为神经网络中的少量参数和权重。

但在HPC模拟所生成的数万亿个粒子当中，真正值得研究人员关注的可能只是几百或几千个粒子的实际行为。

洛斯阿拉莫斯国家实验室副部门负责人加里·格里德 (Gary Grider)在采访中表示，“这就像是大海捞针，实际要寻找的只是总体数据中的小小一部分。”这个问题在体量较小的数据集上相对好些，但阿拉莫斯实验室却向来以超大规模研究著称。“我们可能会运行一个内存占用量高达PB级别的实验，而它往往每隔几分钟就输出一次PB级数据”，且整个过程会持续半年之久。

为了筛选这些数据，科学家们使用一套分析工具来查明到底哪些信息真正具有价值。过去几年来，阿拉莫斯实验室一直在想办法让分析负载跟数据尽可能接近，甚至考虑把计算转移到闪存或硬盘控制器上。从某种意义上说，阿拉莫斯实验室及其合作伙伴想要构建一套大型磁盘控制器集群，利用上面的空闲时钟周期来处理分析功能。

阿拉莫斯实验室的研究人员已经取得了一定进展。通过与SK海力士合作，他们实现了将规约功能引入控制器的概念验证，借此获得了几个数量级的性能改进。

格里德表示，“我们已经证明，通过对规约这类简单分析的全速执行，磁盘驱动器自身就能从磁盘内提取数据，从而彻底消除了传输带宽产生的成本。”

跟能源部下辖的其他HPC实验室一样，阿拉莫斯实验室同样采用分层存储架构，目前已经开始在更大的磁盘池上做类似的探索。为了更进一步，阿拉莫斯实验室与希捷签订了合作研发协议。

“事实证明，希捷方面也在尝试将部分负载转移到存储设备上。他们已经拥有原型方案，处理器就部署在磁盘驱动器旁边。”

弹性问题

但大家都知道，机械硬盘与闪存不同。闪存内部不存在移动部件，而且在使用寿命之内具有相对更可预测的故障率。相比之下，硬盘驱动器内部存在机械结构，随时都有可能发生故障。这就要求对硬盘做一定程度的弹性化改造——换言之，引入擦除码或RAID。

“但这也会增加分析流程的复杂度。要进行分析，我们必须了解数据是什么。但磁盘驱动器往往做不到它一点，它只会把所有信息都看作数据块。”

因此加里德的团队必须从零开始构建一套专用于存储加速分析的文件系统，否则一切都只是空谈。

“我们不希望这事只有阿拉莫斯实验室自己参与，毕竟我们后续得定期采购、还需要厂商提供售后支持。”

于是，阿拉莫斯实验室选择对现有文件系统做“魔改”，选择的则是Sun Microsystems早年间打造的Zettabyte文件系统。这是一套专门管理大型弹性磁盘驱动器池的系统，如今被人们亲切称为Spinning Rust。ZFS还能配合Gluster实现多节点扩展，Gluster则是Red Hat当初收购来的集群文件系统。至于分析任务，工程师们将努力调整文件系统，让它能与Apache的分析堆栈配合运作。

“我们希望努力打造出任何人都能使用的标准工具。”

虽然阿拉莫斯实验室及其合作伙伴有望构建起一套能够直驱分析处理的文件系统，但其初期部署难度绝不是一般用户所能承受的。

因此，格里德希望进一步完善文件系统和分析工具，吸引标准机构和软件开发者为其添加更多功能，最终打造出一款面向主流受众的新方案。

任重而道远

格里德也承认，这方面还有很多工作要做。“要达到消费级应用的程度，可谓是任重而道远。我们接下来要做的是将其转化成某种对象模型，而不再是文件中的一个个块。”

目前，阿拉莫斯实验室的初步目标是将少量分析功能转移至磁盘控制器。

“我们还没有将完整的分析工作负载转移到磁盘驱动器上，目前做的主要是规约还有一部分合并。但总体来看，规约已经可以在设备层次上实现，之后还有合并和排序这类通常在闪存或内存中实现的操作。”

目前最大的障碍并不是算力，而是磁盘所内置的有限内存。格里德坦言，“现在磁盘的内置内存太小，不足以做排序，只能完成选择操作。所以接下来的问题是，我们要怎样增加磁盘的内置内存容量来提升操作复杂度。”

来源：至顶网存储频道

0赞

好文章，需要你的鼓励

洛斯阿拉莫斯实验室联手希捷，尝试将计算与机械硬盘相结合

弹性问题

任重而道远

来源：至顶网存储频道

2023

03/20

08:49

分享

点赞

情感AI的十字路口：从马斯克的虚拟伴侣到腾讯的共情革命

CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

Mistral的Le Chat聊天机器人推出"深度研究"模式，生产力大幅提升

Kioxia 和 SanDisk 展示 332 层 3D NAND 未来技术

尽量出货总容量有所下降，但NAND闪存收入仍在增长

AI崛起，存储重塑：从QLC到122TB大容量SSD

机械硬盘在生成式AI时代依然充满活力与潜力

机械硬盘与AI并进，大容量存储的未来

华为如何抓住全闪化百亿市场新机遇？

闪存普惠，一步到位 华为正式发布极简全闪数据中心暨伙伴先锋行动

为什么存储密度对数据中心至关重要？

预判数据中心内存市场将迎来繁荣，美光正积极着手准备

NetApp CEO：与Nvidia、思科、联想等技术合作伙伴共同引领AI创新

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径

闪存普惠，一步到位华为正式发布极简全闪数据中心暨伙伴先锋行动