Pure Storage和Nvidia打造了一个融合的机器学习系统,以使用数百万个数据点训练人工智能模型。
这个被称为AIRI(AIRI-AI-Ready Infrastructure)的系统将Pure FlashBlade全闪存阵列与4个Nvidia DGX-1 GPU加速系统以及一对100GbitE交换机结合在一起。
该系统由Pure和Nvidia共同设计,据说在购买、部署和操作方面要比单独购买和集成组件更容易更简单,是标准化的融合基础设施。
AIRI是你数据中心所需要的
FlashBlade是Pure Storage的全固态存储阵列,可快速访问非结构化数据,这个4U系统包含15个垂直安装的刀片或对象节点服务器,每个刀片都有一个多核英特尔至强CPU和17TB闪存,总共255TB容量,或者数据缩减后523TB有效容量。每个刀片还包含一对ARM核心、一个FPGA、NVRAM和基于PCIe的网络。这绝对不是基于SSD的商用系统。
这是一个强大的并行访问闪存阵列,在AIRI中必须配置超过160,000个GPU核心。
AIRI将数据提供给4台基于英特尔至强处理器、配有8个Tesla V100 GPU(与NVlink相连)的DGX-1系统。这些都是性能强大的GPU,每个配有5,120个CUDA核心,640个Tensor核心,16MB缓存和带宽为900GB/s的16GB HBM2内存组。V100使用64位浮点运算的最大输出功率为7.5TFLOPS,32位浮点运算为15TFLOPS。
除了32个V100之外,AIRI还有163,840个CUDA核心和20,480个Tensor核心。我们得知,AIRI提供了4个Tensor PFLOPS,一个方面是应用(机器学习任务)必须在容器中运行。
为了连接到外部世界,采用了若干个支持GPUDirect RDMA的Arista 100GbE交换机,这为使用PCIe的GPU和FlashBlades之间数据传输提供了直接快速的路径。FlashBlade和DGX-1之间的接口是基于文件的:NFS over ROCE (RDMA Over Converged Ethernet)。
这里使用了具体哪款Arista产品并未对外透露。
有两个包含的软件项目:
- Nvidia的GPU Cloud Deep Learning Stack。
- AIRI扩展工具包,它是一个配置验证器和多节点训练管理系统。
Pure表示,这款软件将可以帮助数据科学家在几个小时内——而不是数天或数周——启动并运行机器学习项目。
在机器学习领域,AIRI的竞争对手包括HPE的Apollo 6500 gen-10系统和增强采用GPU的IBM AC922服务器,AIRI看起来更强大一些。
HPE的Apollo 6500 gen-10使用单精度浮点数学运算的性能高达125 TFLOPS。同样条件下单个V100大约可以达到15 TFLOPS,这意味着一个DGX-1的性能就可以达到大约120 TFLOPS,而AIRI则可以达到480 TFLOPS,不是一个量级的。
IBM的AC922支持多达6个Tesla V100 GPU,比单个DGX-1少2个,而AIRI有4个DGX-1,同样地,和IBM系统不是一个量级的。
Pure表示,多个训练任务可以并行运行,并且在AIRI上比其他系统完成地更快,运行时间减少到原来的1/4。
价格怎么样? Pure没有提供价格信息,称这取决于渠道供应商,但会一定程度上反映组件的成本。
计算一下,4个DGX-1大约是60万美元。Arista交换机的成本在3,000美元以上,而FlashBlade的成本低于1美元/ GB,这意味着523TB的有效容量的成本将低于523,000美元。
所以这可能是一个百万美元量级的系统,适合大型企业或专有客户购买。该系统支持4个DGX-1,但可以从1个-2个DGX-1开始部署,降低前期成本。
目标客户是那些需要运行大量大型机器学习任务、对数百万数据项目进行模型训练的组织。
每个DGX-1的功耗为3.2kW,因此在考虑存储和网络以及英特尔计算芯片等因素之前,你的功耗已经接近13kW。
目前Pure已经通过特定经销商合作伙伴提供AIRI,包括ePlus Technology、FusionStorm、GroupWare Technology、PNY、Trace3、World Wide Technology和Xenon等。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。