HPE为入门级与中端HPC及AI计算集群,专门打造了小型ClusterStor超级计算机存储阵列。
ClusterStor系列属于HPE在2019年收购Cray时获得的资产,采用SSD加HDD以及Lustre文件系统软件的并行架构。其中XE E1000型可跨越数百个机架提供60 TB至数十PB的存储容量,每机架最高容量可达6.8 PB,并可提供最高1.6 TBps及5000万IOPS/机架。HPE将ClusterStor定位为运行Cray EX超级计算机的百亿亿级算力(Frontier、Aurora、El Capitan)、准百亿亿级算力(LUMI、Perlmutter、Adastra)及国家级AI超级计算机(Isambard-AI、AIps、Shaheen III)配套存储方案。
Ulrich Plechschmidt
HPE并行HPC与AI存储产品营销部门的Ulrich Plechschmidt表示,新的Cray Storage Systems C500将“以远低于以往入门价格的水平提供E1000领先级存储技术,同时提高其易用性。”
Plechschmidt解释称,C500基于E1000,主要面向希望在较小计算集群上运行建模、仿真及AI工作负载的客户。这类计算集群通常使用Cray XD系统构建而成。
Cray EX系统是一款液冷、机架规模的高端超级计算机,而配置较低的XD系列则提供风冷与液冷两种选项,并采用2RU机柜。EX与XD系列均支持AMD及英特尔x86 CPU外加英伟达Hopper GPU。
其中定位中端的XD665支持Slingshot 11、Infiniband NDR及以太网网络,并在其调整结构、GPU、NVMe驱动器及CPU之间提供直接可切换连接。据我们掌握的消息,其并不支持英伟达的GPUDirect协议。
Plechschmidt还不忘挖苦英伟达,表示C500系统的买家“可以放心使用,因为您宝贵数据存放所在的文件系统来自一个充满活力的社区,而非单一企业巨头。”
C500运行与E1000相同的Lustre软件,采用相同的2RU x 24驱动器存储控制器与5RU x 84 HDD机箱,但在具体设计上融合度更高、成本更为低廉。
带有控制器及存储机箱的入门级C500
C500配置细节:
入门级C500可通过24个NVMe SSD提供22 TB至513 TB的可用容量,为计算节点提供高达80 GBps的聚合读取性能与60 GBps的写入性能。相比之下,IBM支持GPUDirect的ES3500使用Storage Scale并行文件系统为英伟达GPU提供126 GBps读取带宽与60 GBps写入带宽。而DDN采用Lustre的A1400X2 Turbo则能够为英伟达GPU提供120 GBps读取带宽与75 GBps写入带宽。
Plechschmidt指出,HPE即将“发布重大软件改进与新功能,使得存储系统更易于部署和管理。”但奇怪的是,详细信息隐藏在HPE QuickSpecs网页之后,需要授权合作伙伴或HPE员工方可登录。普通用户根本无从了解。
HPE QuickSpecs网页(https://psnow.ext.hpe.com/#/?url=https://psnow.ext.hpe.com/doc/a50007029enw)
但HPE已经修复了此问题,并表示“QuickSpecs文档上线时发生了内部断线,目前尚未彻底解决,特此说明。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。