Pure Storage自2011年推出FlashArray以来已经走过了漫长的发展道路。公司扩展了全闪存存储产品组合,推出了FlashBlade、用于无干扰升级的Evergreen Storage,开发了Portworx和Pure Fusion等云原生解决方案用于混合云和多云环境,并引入了Pure1进行AI驱动的管理。公司于2015年成功上市。
Charles Giancarlo于2017年担任CEO,我们在采访的第一部分讨论了AIOPS、AI数据,并探讨了数据集管理概念。在第二部分中,我们将进一步探讨这个话题,并讨论现成SSD、软件栈和copilot等内容。
数据集管理的核心理念
当谈到数据集管理理念时,Giancarlo解释了数据管理与数据集管理之间的区别。他表示,目前讨论的数据管理通常指的是针对特定AI或分析引擎的特定数据存储进行管理。但他们没有管理的是数据集本身的生命周期。
"如果你试图管理其中的每个数据位,我认为现在会失败。但与此同时,如果你管理数据集,我们不一定知道每个数据集中的每一位数据,但如果我们能跟踪数据集本身,包括它们在哪里、数据集生命周期管理如何进行、它们应该保持多长时间活跃、何时应该被删除等问题。"
这种通用化的数据管理方法意味着数据可能驻留在其他人的设备上。虽然目前还没有达到这个程度,但随着时间推移可能会实现。
数据集生命周期管理的重要性
Giancarlo强调了数据集生命周期管理的重要性,不仅是为了避免在不需要的冗余副本上浪费存储空间,还涉及合规性问题。那些由已离职员工创建但无人记得的副本会成为"幽灵副本",这是一个合规问题。
"很多这些副本最终会成为勒索软件的一部分,因为它们被遗忘了,可能完全不为人知。所以它们不受持续安全措施的保护,比如密钥轮换。这就像一个等待开放的后门。"
因此需要生命周期管理:如果数据三个月没有被触及且无人拥有,就应该删除它。
FlashArray技术策略
在技术层面,FlashArray//ST(FAST)使用现成的SSD。当被问及是否可以重新组织Pure DFM并使其成为SLC时,Giancarlo确认这是可能的,速度会非常快。
使用现成SSD的原因是客户真正要求的是非常高的吞吐量。公司还构建了一些独特的电子设备来卸载许多在常规产品中由Intel处理器处理的服务,这也降低了延迟,提高了整体性能。这对公司来说是一种更简单的战术性方法。
软件栈发展方向
Pure和Vast都在其存储之上构建了非常全面和强大的软件栈。Giancarlo认为,Dell和HPE仍在做他所谓的"全栈"方案,这是一种垂直架构。
"虚拟化已经扁平化并使计算水平化,也使网络水平化。存储是唯一仍然服务于应用环境的东西,所以它是垂直的。我们说这也应该是水平的。现在,全栈是一个没有意义的硬件概念。你想要的是可以用软件创建的虚拟全栈,而不是任何物理全栈。"
Copilot的应用
关于Copilot术语的使用,Giancarlo澄清这不仅仅是微软的术语,现在每个人都在将copilot用作其管理或运营平台之上的AI层。之所以称为copilot,是因为大多数公司表示,他们还不想让AI完全自主运行,必须有人工干预。
公司保留使用不同大语言模型的权利,实际上在某些情况下会使用多个模型,因为它们各有其特色以及优点或缺点。
Q&A
Q1:Pure Storage的数据集管理与传统数据管理有什么区别?
A:传统数据管理通常指针对特定AI或分析引擎的特定数据存储进行管理,而数据集管理是跟踪数据集本身的生命周期,包括它们的位置、应该保持多长时间活跃、何时删除等。这种方法不需要了解每个数据集中的每一位数据,但能有效管理整个数据集的生命周期。
Q2:为什么FlashArray//ST要使用现成的SSD而不是自研芯片?
A:这是一个战术性决策。客户真正需要的是非常高的吞吐量,使用现成SSD能更快进入市场。同时公司构建了独特的电子设备来卸载服务处理,降低延迟提高性能。对于相对小众的专业化市场,使用现成技术比投入更多工程资源获得轻微优势更合理。
Q3:Pure Storage的Copilot是基于微软的技术吗?
A:不是的。虽然使用了Copilot这个术语,但Pure Storage保留使用不同大语言模型的权利,实际上会使用多个模型,因为它们各有特色和优缺点。Copilot代表管理或运营平台之上的AI层,强调需要人工干预,不让AI完全自主运行。
好文章,需要你的鼓励
思科推出8223路由系统和Silicon One P200芯片,用于满足企业日益增长的AI工作负载需求。该系统提供51.2 Tbps以太网固定路由器,P200芯片实现超过3艾比特每秒的互连带宽规模。新设备采用深缓冲设计,相比前代产品节能65%,支持跨数据中心AI集群分布式部署,解决物理空间和电力容量限制问题。
这项由EleutherAI和英国AI安全研究所合作完成的研究提出了革命性的AI安全解决方案——通过在训练阶段过滤危险内容来构建本质安全的AI模型。研究团队开发了高效的数据过滤系统,成功训练出能够抵抗强力对抗攻击的AI模型,在保持通用能力的同时实现了前所未有的安全性,为开源AI模型的安全发展提供了切实可行的技术路径。
智能AI代理正成为软件开发的新宠,企业高管希望通过AI代理提升效率。尽管开发者对AI生成代码的质量存在担忧,但其潜在价值巨大。调查显示三分之二企业正在或计划使用多个AI代理进行软件测试,72%认为到2027年智能AI可实现自主测试。专业化的精简测试代理比大型模型更适合特定任务,需要建立负责任的信任框架来管理AI代理行为,但人工测试仍不可替代。
这项由格拉斯哥大学等顶尖高校联合开展的突破性研究,首次系统性提出了"自进化AI智能体"概念框架,将AI发展划分为四个阶段并提出三定律指导原则。研究详细阐述了从单智能体到多智能体系统的优化方法,涵盖思维能力、记忆管理、工具使用等多个维度,并分析了生物医学、编程、金融法律等专业领域的定制化应用,为构建能够持续学习和自我改进的下一代AI系统提供了理论基础和实践指导。