问题:近线磁盘存储跟纯磁盘主动归档系统有区别吗?答案:没区别。
剑桥词典对“归档”做出的解释是:“用于存储您不需经常使用的电子信息或文档的计算机文件。”
结合释义,就是说这些文件不需要被存储在可提供连续访问的磁盘驱动器上。
主动归档联盟(AAA)对于主动归档的定义如下:“主动归档可在整个生命周期之内,实现对数据的可靠、在线且经济高效的访问,并与闪存、磁盘、磁带或云,以及文件、块或对象存储系统相兼容。其有助于将数据移动至适当的存储层,从而最大限度降低成本,同时保持用户访问的便利性……创建自动归档能够释放T1层存储资源,节约宝贵的主存储空间,且仍保证在线存储/组织全体数据。”
换句话说,主动归档涵盖的是非主要数据,即T2(近线)和T3(离线)级数据,这里没有提及仅限于缓存内的在线介质。自动归档联盟明显认为,人人都该保有自己的一套在线归档系统。
该联盟提出的四层存储模型省略掉了所有介质类型,其中包含一个深层归档子类:
主动归档联盟给出的四层存储模型
这套模型也为在线归档业务打开了大门,各大磁盘驱动器厂商和归档联盟成员兼赞助商希捷都在为其开发相应产品。
希捷将企业数据归档描述为“用于存储组织数据的存储系统或平台,这些数据很少被使用或访问,但重要度较高。例如财务记录、内部通信、蓝图、设计、备忘录、会议记录、客户信息以及组织今后可能需要的其他文件。”
“早期企业数据归档主要强调在指定存储单元中保存的纸质记录……近年来,组织开始将其数据归档转移至基于云的解决方案。基于云的解决方案能使数据归档更易于访问,同时降低相关成本。”
基于云的解决方案包括采用Cloudian、Scality或其他对象存储软件的基于本地对象存储磁盘的系统。此外,希捷Exos磁盘驱动器机柜和托管磁盘阵列服务Iyve Cloud系统也属于此类。
这里并不涉及离线磁带或光盘盒库之上的磁盘缓存数据概念。对此,Horrison Information Strategies的分析师Fred Moore显然有不同看法。
在由高通赞助的《构建未来归档》论文中,Moore阐述了自己理解的归档定义。与制作数据副本以便原始数据丢失或损坏时进行还原的备份方案不同,他认为归档属于原始数据一个版本,其作用是从中检索部分数据、而非进行数据恢复。
W Curtis Preston在其2021年出版的《现代数据保护》一书中,也引用了这个定义以及恢复-检索间的区分。
将数据转移至归档存储,能够释放宝贵的主存储容量,转而使用成本更低、容量更大、但访问更慢的长期存储介质,例如磁盘和光盘。Moore认为归档可以分为两种:由离线磁带与在线磁盘驱动器组成的主动归档;以及仅由离线存储介质提供的长期或深层归档。
归档也可以通过特定软件来定义:对象存储软件能够对非结构化数据和对象数据进行横向扩展和跨地理分发,借此实现归档存储的管理和保护需求。这类方案涵盖智能数据移动器、数据分类和元数据等功能。
Moore认为,“当前,数据中心经理提出的普遍目标,就是「非数据,不应消耗能源。」”这明显是把磁带视为最环保的可用存储解决方案。他建议“所有数据中应有60%到80%以归档形式存在,但其中大部分其实被存储在错误的位置上——即磁盘驱动器上。到2025年,全球总归档数据量约在4.5至6 ZB之间,而归档仍是其中占比最高的类型。”请注意其中的表述,“被存储在错误的位置——即磁盘驱动器上。”
Fred Moore提出的四层存储示意图
他的观点很明显:磁盘存储不适合用于归档。那么,磁盘到底该在主动归档层中扮演什么角色?Moore认为,“主动归档实现应使用磁盘或SSD作为机器人磁带库的缓存前端,借此加快归档数据的访问速度。归档体量越大,主动归档系统带来的优势就越明显。”
在Moore看来,在线介质、磁盘或NAND应该是安置在磁带库之前的缓存,而非作为归档存储层本身。这跟主动归档联盟的观点截然不同。
主动归档联盟做出的定义确实让人摸不清头脑,因为里面同时涉及在线和离线介质。对Moore来说,归档在本质上应该是离线的。
传统意义上的归档不应包含那些使用活动介质(例如磁盘或磁带)的存储系统,因为这类介质耗电太高,而归档数据并不需要提供持续可用的访问通道。归档应仅基于离线媒体,并为主动归档提供前端在线缓存。
在我看来,离线和在线归档介质之间需要做出明确区分,因为二者的电力消耗和访问特性都有很大区别。网盘跟线下存储介质能一样吗?所以,基于磁盘的存储就不能算是主动归档系统,而应该被理解成近线对象存储系统。
其实部分主动归档联盟的成员似乎也赞成这一观点。在2022年8月的一篇博文中,IBM磁带布道师兼战略专家Shawn Brume表示,“在IBM利用公开数据开展的一项2022年研究中,对大规模数字数据存储部署的用例比较表明,10 PB级大规模开放计算项目(OCP)Bryce Canyon磁盘存储(Facebook的革新型存储方案)排放的二氧化碳,达到同规模企业磁带存储解决方案的5.1倍。”
Brume在博文中使用的图片,证明磁带远比磁盘环保。
“图中为以十年为数据保存生命周期,使用不同现代存储方法的碳排放比较。磁盘驱动器在整个生命周期中的电力消耗,以及每五年更换整个环境的硬性需求构成了大部分二氧化碳排放。与磁盘基础设施相比,磁带基础设施的嵌入碳足迹可降低达93%。”
Brume也在博文中引用了主动归档联盟提出的四层存储模型,其中明确将主动归档和包含深层归档子类的归档做了区分。
如果选择降速磁盘,那理论上我们也能攒出一套基于磁盘的归档系统。Copan在2002年至2009年间就通过其MAID(大规模闲置磁盘阵列)做了尝试,并于2010年交由SGI进一步调整,但未能获得成功。
磁盘驱动器制造商希捷已经在实际生产降速磁盘系统。其Lyve Mobile阵列号称是“便捷式机架解决方案,可轻松整合至任意数据管理工作流程当中,实现多功能、大容量和高性能的数据传输。在其坚固、可上锁的运输箱内,安装的是符合行业AES 256位标准的硬件加密与密钥管理技术。”当运输箱处于活动状态时,磁盘驱动器不会执行读写操作。
从理论上讲,厂商也可以开发出一款降速版的Exos或Corvault磁盘机柜,然后把产品生命周期内的碳减排效果作为核心卖点。在可持续发展议题日益升温的当下,也许这会带来更强的现实意义和市场接受度。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面