活跃存档联盟定义了三个存档层级WORM、WORSe和WORN,认为生成式AI需要快速访问近期存档数据,这要求动态访问能力。
这些层级定义在一份14页的特别报告中,题为"通过活跃存档为明天不断扩大的存储挑战做准备"。报告指出:"随着组织越来越需要快速访问大量历史数据,活跃存档的概念已成为长期和无限数据保存策略的基石。人工智能、商业智能、医疗保健和科学研究等行业正在挖掘存档数据以获取此前被忽视的洞察。这一转变正在将数据存档从被动存储库转变为主动引擎。"
活跃存档采用两种或更多存储介质技术,包括硬盘驱动器、固态硬盘、磁带、光盘,通过智能数据管理软件进行管理。实际存储设备可以部署在本地或公有云中,通常具有S3或Azure Blob接口。存档层级从相对热存储(固态硬盘、硬盘驱动器)、温存储(硬盘驱动器、光盘)到冷存储(磁带)不等。
报告展示了数据生命周期图:数据通常随着老化和访问频率下降从左向右流动,但也可能重新需要并向左回流,图表显示数据会在短时间内变为热数据。
活跃存档联盟报告提出了三个存档访问层级:WORM(一次写入,多次读取)、WORSe(一次写入,很少读取)和WORN(一次写入,从不读取)。这些层级对应三种存档类型:活跃、存档和深度存档。
进一步的图表显示了这些层级中可能的数据类型分布百分比。
AI模型的兴起以及智能体分析和处理历史业务数据的相关需求,对快速访问提出了更高要求。但这意味着需要使用固态硬盘来实现最快访问,而即使是大容量QLC固态硬盘,每TB成本仍然比磁盘驱动器更高,尽管耗电更少。访问性能、功耗成本和介质成本之间的这种紧张关系在短期内不太可能得到解决。
在2026-2028年期间,250TB和500TB级别的更高容量固态硬盘可能会缩小硬盘驱动器与固态硬盘之间的价格差异,从而促进其在活跃存档中的使用。
在性能范围的下端,可以预见磁带存档可能会被推回到更冷的数据存储中,因为基于玻璃的光学存储(如Cerabyte正在开发的技术)可能会在磁带和磁盘之间提供新的存储层。这种可行性将在2026/2027年时间框架内变得更加清晰。
备注
活跃存档联盟的十三个成员和赞助商包括:Arcitecta、BDT Media Automation GmbH、Cerebyte、富士胶片、IBM、Iron Mountain、MagStor、Point、Savartus、Spectra Logic、Wasabi、西部数据和XenData。Folio Photonics曾是成员,但其光学存储产品上市困难与会员资格失效同时发生。
BDT制造磁带库。
Savartus成立于2024年底,是从Rimage Corporation活跃存档部门独立分拆出来的公司。
Q&A
Q1:活跃存档联盟定义的三个存档层级是什么?
A:活跃存档联盟定义了三个存档访问层级:WORM(一次写入,多次读取)、WORSe(一次写入,很少读取)和WORN(一次写入,从不读取)。这些层级对应三种存档类型:活跃、存档和深度存档,旨在应对AI需要快速访问历史数据的挑战。
Q2:为什么生成式AI对存档数据访问提出了新要求?
A:生成式AI模型以及智能体需要分析和处理历史业务数据来获取洞察,这对快速访问提出了更高要求。AI、商业智能、医疗保健和科学研究等行业正在挖掘存档数据以获取此前被忽视的信息,这一转变正在将数据存档从被动存储库转变为主动引擎。
Q3:活跃存档系统使用哪些存储技术?
A:活跃存档系统采用两种或更多存储介质技术,包括硬盘驱动器、固态硬盘、磁带和光盘,通过智能数据管理软件进行管理。存储设备可以部署在本地或公有云中,通常具有S3或Azure Blob接口。存档层级从热存储到冷存储不等,以平衡访问性能、功耗成本和介质成本。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。