活跃存档联盟定义了三个存档层级WORM、WORSe和WORN,认为生成式AI需要快速访问近期存档数据,这要求动态访问能力。
这些层级定义在一份14页的特别报告中,题为"通过活跃存档为明天不断扩大的存储挑战做准备"。报告指出:"随着组织越来越需要快速访问大量历史数据,活跃存档的概念已成为长期和无限数据保存策略的基石。人工智能、商业智能、医疗保健和科学研究等行业正在挖掘存档数据以获取此前被忽视的洞察。这一转变正在将数据存档从被动存储库转变为主动引擎。"
活跃存档采用两种或更多存储介质技术,包括硬盘驱动器、固态硬盘、磁带、光盘,通过智能数据管理软件进行管理。实际存储设备可以部署在本地或公有云中,通常具有S3或Azure Blob接口。存档层级从相对热存储(固态硬盘、硬盘驱动器)、温存储(硬盘驱动器、光盘)到冷存储(磁带)不等。
报告展示了数据生命周期图:数据通常随着老化和访问频率下降从左向右流动,但也可能重新需要并向左回流,图表显示数据会在短时间内变为热数据。
活跃存档联盟报告提出了三个存档访问层级:WORM(一次写入,多次读取)、WORSe(一次写入,很少读取)和WORN(一次写入,从不读取)。这些层级对应三种存档类型:活跃、存档和深度存档。
进一步的图表显示了这些层级中可能的数据类型分布百分比。
AI模型的兴起以及智能体分析和处理历史业务数据的相关需求,对快速访问提出了更高要求。但这意味着需要使用固态硬盘来实现最快访问,而即使是大容量QLC固态硬盘,每TB成本仍然比磁盘驱动器更高,尽管耗电更少。访问性能、功耗成本和介质成本之间的这种紧张关系在短期内不太可能得到解决。
在2026-2028年期间,250TB和500TB级别的更高容量固态硬盘可能会缩小硬盘驱动器与固态硬盘之间的价格差异,从而促进其在活跃存档中的使用。
在性能范围的下端,可以预见磁带存档可能会被推回到更冷的数据存储中,因为基于玻璃的光学存储(如Cerabyte正在开发的技术)可能会在磁带和磁盘之间提供新的存储层。这种可行性将在2026/2027年时间框架内变得更加清晰。
备注
活跃存档联盟的十三个成员和赞助商包括:Arcitecta、BDT Media Automation GmbH、Cerebyte、富士胶片、IBM、Iron Mountain、MagStor、Point、Savartus、Spectra Logic、Wasabi、西部数据和XenData。Folio Photonics曾是成员,但其光学存储产品上市困难与会员资格失效同时发生。
BDT制造磁带库。
Savartus成立于2024年底,是从Rimage Corporation活跃存档部门独立分拆出来的公司。
Q&A
Q1:活跃存档联盟定义的三个存档层级是什么?
A:活跃存档联盟定义了三个存档访问层级:WORM(一次写入,多次读取)、WORSe(一次写入,很少读取)和WORN(一次写入,从不读取)。这些层级对应三种存档类型:活跃、存档和深度存档,旨在应对AI需要快速访问历史数据的挑战。
Q2:为什么生成式AI对存档数据访问提出了新要求?
A:生成式AI模型以及智能体需要分析和处理历史业务数据来获取洞察,这对快速访问提出了更高要求。AI、商业智能、医疗保健和科学研究等行业正在挖掘存档数据以获取此前被忽视的信息,这一转变正在将数据存档从被动存储库转变为主动引擎。
Q3:活跃存档系统使用哪些存储技术?
A:活跃存档系统采用两种或更多存储介质技术,包括硬盘驱动器、固态硬盘、磁带和光盘,通过智能数据管理软件进行管理。存储设备可以部署在本地或公有云中,通常具有S3或Azure Blob接口。存档层级从热存储到冷存储不等,以平衡访问性能、功耗成本和介质成本。
好文章,需要你的鼓励
IBM亚太区总经理汉斯·德克斯表示,随着地缘政治紧张局势加剧和数据主权法律要求,亚太地区首席信息官越来越担心过度依赖少数几家主要云服务商。IBM正将自己定位为中立的技术经纪人,通过Red Hat开源软件作为"万能血型",让应用在本地服务器和各种公有云之间自由迁移。公司专注于混合云、企业AI和量子计算三大技术领域,通过"客户零号"项目在内部实现70个工作流程整合,降低成本45亿美元,为客户提供独立建议帮助其重获灵活性和控制权。
卡内基梅隆大学联合Adobe开发出革命性的NP-Edit技术,首次实现无需训练数据对的AI图像编辑。该技术通过视觉语言模型的语言反馈指导和分布匹配蒸馏的质量保障,让AI仅用4步就能完成传统50步的编辑任务,在保持高质量的同时大幅提升处理速度,为图像编辑技术的普及应用开辟了全新道路。
Akamai的分布式边缘架构从设计之初就以韧性为核心,全球平台通过跨区域负载均衡和智能路由技术,确保即使某些节点出现故障,流量也能无缝切换至可用节点。
复旦大学团队突破AI人脸生成"复制粘贴"痛点,开发WithAnyone模型解决传统AI要么完全复制参考图像、要么身份差异过大的问题。通过MultiID-2M大规模数据集和创新训练策略,实现保持身份一致性的同时允许自然变化,为AI图像生成技术树立新标杆。