VAST Data 在现有的文件和对象协议支持基础上,新增了块存储访问功能以及 Kafka 事件代理服务,为 AI、机器学习和分析工作负载提供实时数据流处理能力。
VAST Data 的存储阵列采用可扩展的分布式共享一切 (DASE) 架构,支持文件和对象数据的并行访问,其软件架构包括 DataCatalog、DataBase、DataSpace 和 DataEngine。系统已支持将数据变更事件实时通知到外部 Kafka 集群。现在,它在 DataEngine 中集成了自己的 Kafka 事件代理,用于接收、存储和分发此类事件。
VAST 产品与解决方案营销副总裁 Aaron Chaisson 表示:"通过今天的公告,我们正在消除曾经阻碍 AI 和分析计划的数据孤岛,为客户提供更快、更准确的决策能力,释放数据驱动增长的潜力。"
通过提供块级数据访问,VAST Data 表示现在可以支持传统结构化数据应用,如关系数据库、SQL 或 NoSQL、ERP 和 CRM 系统,以及虚拟化 (VMware、Hyper-V、KVM) 和容器化工作负载。所有传统结构化数据工作负载都可以在 VAST Data 存储阵列上运行,让客户有机会将块存储、文件、对象、表格和流式存储整合到单一存储系统中。希望渠道合作伙伴能够推动这些依赖块访问的工作负载从现有的块存储阵列迁移过来 —— 如 Dell PowerMax、Hitachi Vantara VSP One 和 IBM DS8000 等。
VAST 还支持从 SAN 启动,称"企业可以通过消除对本地磁盘的依赖来简化服务器部署和管理。"它声称这种方法"增强了灾难恢复能力,提高了冗余性,并支持快速配置新的虚拟或裸机服务器,同时确保 IT 环境中的性能一致性。"
事件代理的添加使得"AI 代理能够即时处理传入数据,实现实时智能和自动化。"
该公司表示,客户可以在其单一系统中访问所有数据,在统一架构内处理所有工作负载。它通过事件代理"统一了事务处理、分析、AI 和实时流处理工作负载"。客户可以"将事件日志流式传输到系统进行处理,实时发布和处理遥测数据,向用户提供事件驱动的更新,并将数据流式传输到模型进行实时训练或推理。"
VAST 表示,Kafka 实现广泛用于数据移动,但"会创建孤立的事件数据孤岛,妨碍无缝分析。"它们涉及基础设施扩张、数据复制和缓慢的批量 ETL 处理,"这些都会延迟实时洞察。"其新的事件代理可以在新数据点进入 VAST 的 DataBase 时激活计算。它应该能使 AI 代理和应用程序即时响应事件并帮助自动化决策。VAST 声称,事件代理在相同硬件上"比 Kafka 性能提高 10 倍以上,具有无限的线性扩展能力,目前在 VAST 最大的集群部署中能够每秒处理超过 5 亿条消息。"
VAST 联合创始人 Jeff Denworth 表示:"通过将事件流、分析和 AI 合并到单一平台中,VAST 消除了数十年的数据管道效率低下和事件流复杂性问题,使组织能够在毫秒级检测欺诈、全球关联情报信号、即时采取数据驱动的洞察行动,并提供 AI 驱动的客户体验。这就是为 AI 时代打造的实时智能的未来。"
所有这些数据访问方式(块、文件、对象、表格和流式处理)都可以使用 VAST 的快照、复制、多租户、QoS、加密和基于角色的访问控制服务。它声称在 AWS 云中,客户需要 21 个独立服务才能完成 VAST 所做的事情。
提供统一块、文件和对象数据访问的竞争系统包括 Red Hat 的 Ceph 和 StorOne。Quantum 的 Myriad 和 HPE 的 Alletra MP X10000 都基于键值存储,支持文件或对象访问协议,可以扩展以添加块或其他协议。
VAST 对块数据的支持将首次使其与联想的 Infinidat 高端 SAN 存储业务部门展开直接竞争。
NetApp 的 ONTAP 阵列提供统一的文件和块访问。然而,NetApp 发现其部分全闪存客户更倾向于购买仅块存储的 ASA (SAN) 阵列,而不是传统的 ONTAP AFF 阵列。他们想要去整合而不是整合,表明并非所有客户都想要单一的多功能统一阵列。
VAST 一直承诺提供统一的数据访问,因此我们可以预见,许多客户会积极考虑将基于块的应用程序数据存储迁移到他们的 VAST 系统。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。