Nutanix推出了一款即插即用的交钥匙GPT“魔盒”,供客户在其超融合软件平台上运行大型语言模型人工智能工作负载。
GPT(Generative Pre-trained Transformer)是一种机器学习大型语言模型(LLM),它可以解释文本请求和问题,搜索多个源文件,并通过文本、图像、视频甚至软件代码输出进行响应。受ChatGPT模型的启发,世界各地的组织都在考虑采用LLM如何改善营销内容创作,使聊天机器人更好地与客户互动,为普通研究人员提供数据科学家的能力,并在这样做的同时节省成本。
IDC基础设施系统、平台和技术集团高级研究分析师Greg Macatee表示:“通过GPT-in-a-box,Nutanix为客户提供了一个交钥匙、易于使用的的人工智能用例解决方案,为那些在生成式AI采用方面遇到困难的企业提供了更简单的部署途径。”
Nutanix希望通过构建一个软件堆栈,包括Nutanix云基础设施、Nutanix文件和对象存储,以及Nutanix AHV虚拟化管理程序和具有Nvidia GPU加速功能的Kubernetes(K8S)软件,让客户更容易试用和使用LLM。其云基础设施本身就是一个软件堆栈,包括公共或私有云中的计算、存储和网络、虚拟化程序和容器。据说,GPT魔盒可以从边缘到核心数据中心部署并进行扩展。
GPU加速涉及Nutanix的Karbon Kubernetes环境,该环境支持Kubernete之上的GPU直通模式。它还没有扩展到支持英伟达的的GPU Direct主机的处理器旁路协议,以实现GPU服务器对存储驱动器的直接访问。
Nutanix产品管理高级副总裁Thomas Cornely表示:“Nutanix GPT魔盒是一款专为人工智能准备的堆栈,旨在解决生成人工智能采用方面的关键挑战,并帮助加速人工智能创新。”
我们已经询问了“这个有见解的人工智能就绪堆栈”一词的含义,但尚未得到回复。
Nutanix还提供服务,帮助客户通过开源深度学习和MLOps框架、推理服务器以及一组精选的LLM(如Llama2、Falcon GPT和MosaicML)来确定集群规模并部署其软件。
数据科学家和机器学习管理员可以通过选择应用程序、增强的终端UI或标准CLI来使用这些模型。GPT魔盒系统可以运行其他GPT模型,并通过使用从Nutanix文件或对象存储访问的内部数据对其进行微调。
让Nutanix感到欣慰的是,最近的一项调查发现,78%的客户可能会在Nutanix云基础设施上运行他们的AI/ML工作负载。这也印证了IDC上面的支持性引用。
Nutanix希望我们认识到通过其在以下方面的参与,它在AI和开源AI社区中具有可信度:
参与MLCommons(AI标准)咨询委员会
共同创立并在定义ML存储基准和医学基准方面担任技术领导
担任云原生计算基金会(CNCF)Kubeflow(MLOps)培训和AutoML工作组的联合主席
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。