WEKA宣布推出NeuralMesh并行文件系统软件转型方案,用于加速大规模AI应用。
该方案基于这样的认识:传统存储架构无法满足新型分布式AI代理训练和推理环境在规模、延迟敏感性和并发性方面的需求。NeuralMesh由运行在动态连接节点网格中的微服务组成,连接数据、存储、计算和AI。它能够提供保证微秒级延迟的SLA,并随着规模扩展变得更具弹性,更多节点参与从故障节点重建广泛分布的数据条带。
WEKA表示:"当硬件故障时,系统能在几分钟内重建,而不是几小时。随着数据增长到EB级,性能会提升而不是下降。"
WEKA联合创始人兼CEO Liran Zvibel表示:"AI创新继续以惊人的速度发展。推理时代已经到来。我们过去依赖的数据解决方案和架构无法支持代理AI和推理工作负载所需的巨大性能密度和规模。在我们的客户群中,我们看到PB级客户环境正在以难以理解的速度增长到EB级。未来是超大规模的。"
NeuralMesh可在本地、数据中心和边缘站点、裸机或虚拟机上运行,也可在公有云和新型云(如Nebius等GPU服务器集群)中运行,具有统一命名空间。它可以从小规模开始,容量从TB增长到PB再到EB,在此过程中提升整体性能和弹性。
Zvibel告诉B&F:"我们从很早就开始容器化,但现在我们让它更加正式化。我们让外界更容易看到它。我们添加了更多容器和服务类型。此外,我们让部署更加灵活,我们的一些容器也在客户端运行。基本上我们提供端到端的完整解决方案,我们已经开始在当前实现中这样做。当我们在许多大型新型云中运行时,我们开发了Kubernetes操作器,你可以将我们的操作器与他们的Kubernetes集成,然后我们就作为他们基础设施的一部分运行。"
他谈到新型云时说:"很多新型云都使用我们的基础设施。所以他们的客户可能不知道这是WEKA,有些会公开说明。我们刚刚宣布了Nebius,但我们拥有的Nvidia NCP云可能比任何人都多。"NCP代表Nvidia云合作伙伴。
NeuralMesh在所有节点间分布数据和元数据,通过内置的自愈合、自扩展和快速重建功能动态平衡I/O。WEKA表示,一家基因组学研究机构从2PB扩展到12PB,无需停机或重新平衡,实现了一致的I/O延迟并消除了周末维护窗口。
该软件支持并发模型训练和推理,"消除了传统存储层的性能瓶颈"。它提供实时的PB级可观测性,覆盖所有数据路径,提供性能指标和基础设施健康状况的洞察,集成了仪表板、警报和遥测API。
它还支持TLC/QLC NVMe SSD和对象存储之间的分层,以及容器存储集成,加上传输中和静态加密、快照、快照到对象和基于角色的访问控制(RBAC)。
NeuralMesh支持Nvidia、AMD和其他供应商的GPU和加速器硬件。Stability AI的HPC工程主管Chad Wood表示:"使用WEKA,我们现在在AI模型训练期间实现了93%的GPU利用率,并以80%的先前成本将云存储容量增加了1.5倍。"
网格架构详情
在回答关于网格节点构成的问题时,WEKA解释道:NeuralMesh的网格架构有两个部分——微服务和节点。这两个概念协同工作,提供本质上是软件定义结构的网格,以模块化和可组合的方式互连数据、计算和AI服务。
系统中的每个节点运行一个或通常多个微服务,每个微服务处理特定的功能集,如数据访问、元数据、审计、协议通信或可观测性。这些服务通过定义明确的API相互通信,实现整个基础设施的动态编排。
与绑定到刚性硬件架构的传统存储系统不同,NeuralMesh的完全容器化、面向服务的设计允许每个功能独立扩展。这提供了:弹性扩展到EB级及以上而不损失性能;适合安全多租户环境的细粒度资源隔离;跨裸机、云和混合部署的云原生灵活性。
关于扩展性能提升,WEKA提供了具体数据:NeuralMesh随着扩展变得更强大和有弹性,因为数据以小块形式跨所有故障域进行条带化,所以丢失一个节点只影响每个条带的微小部分。集群越大,条带分布越广,故障暴露度越小。例如:对于条带大小18(16+2)和集群大小20,可能的条带组合数量是190,增加一个服务器使集群大小达到21,可能的组合数量增加到1330。当集群大小增长到25时,可能的条带组合数量现在是480,700。
此外,每个可用的计算核心都参与重建的纠删码计算,即使它不拥有数据。例如,在50节点集群中1个节点故障,其他49个节点的核心参与恢复。在100节点集群中,99个节点的核心提供帮助——有效地将重建速度提高一倍。
NeuralMesh是获得WEKA软件的新方式。WARRP(WEKA AI RAG参考平台)包含在NeuralMesh中,增强内存网格(AMG)也是如此。关于这一点,Zvibel告诉我们:"当我们运行这些工作负载并在后端网络上连接WEKA时,我们实际上可以访问8个NIC用于AUG。总共是128个PCIe通道。这实际上比CPU拥有的PCIe通道还要多。"
NeuralMesh软件目前以有限发布形式提供给企业和大规模AI部署,正式发布计划在2025年秋季。
好文章,需要你的鼓励
谷歌深度思维团队开发出名为MolGen的AI系统,能够像经验丰富的化学家一样自主设计全新药物分子。该系统通过学习1000万种化合物数据,在阿尔茨海默病等疾病的药物设计中表现出色,实际合成测试成功率达90%,远超传统方法。这项技术有望将药物研发周期从10-15年缩短至5-8年,成本降低一半,为患者更快获得新药治疗带来希望。
继苹果和其他厂商之后,Google正在加大力度推广其在智能手机上的人工智能功能。该公司试图通过展示AI在移动设备上的实用性和创新性来吸引消费者关注,希望说服用户相信手机AI功能的价值。Google面临的挑战是如何让消费者真正体验到AI带来的便利,并将这些技术优势转化为市场竞争力。
哈佛医学院和微软公司合作开发了一个能够"听声识病"的AI系统,仅通过分析语音就能预测健康状况,准确率高达92%。该系统基于深度学习技术,能够捕捉声音中与疾病相关的微妙变化,并具备跨语言诊断能力。研究团队已开发出智能手机应用原型,用户只需完成简单语音任务即可获得健康评估,为个性化健康管理开辟了新途径。