扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
计算机使用的磁带早在60年前就已出现,该技术发展的历史远远超过大部分业内人士的年龄。备份市场目前在整个磁带市场中占有的份额要远小于归档市场,而磁带迁移是磁带行业所面临的最大问题之一。
对于大型归档系统来说,数据迁移往往是一个持续的过程。其中有两大关键原因:
1、磁带的密度以每18到24个月增加2倍的速度增长,但磁带的性能只增长20%。这就意味着迁移归档所用的时间越来越长,而磁带驱动器的数量却不增加。
2、不再支持磁带驱动器接口,如1 Gb和2 GbFC。如果不进行迁移,将需要越来越多的磁带库,而这将花费巨大的成本。
以上这些因素使得迁移至新的磁带技术成为持续不断的过程,而迁移也必须包括其他硬件,如服务器、RAID存储和交换机。
迁移在过去相当简单,但现在情况发生了变化,原因众多。现在少有网站会迁移备份数据,但归档数据的迁移是必须的。在多数情况下,备份数据都是暂时性的。当然,某些政府法案也要求保存一些数据,但属于其管辖范围的企业的数量极少。再者,磁带能够被读取五年的时间,因此,你尽可把它们放置在不常用的存储中。
备份数据的大小远远小于归档数据,比如病历记录、哈勃太空望远镜或者类似NOAA卫星图像的数据。现如今,每辆汽车、每架飞机都必须拥有架构模型数据和设计信息的归档,以防不时之需。而在不远的将来,我们的基因组也需要保存起来。大型归档的增长速度远远超过了磁带密度的增长,以及磁带性能的发展。目前LTO磁带密度增长近一倍,而性能仅提高了20%左右。许多网站将归档从旧的磁带驱动器X迁移至新的磁带驱动器Y,往往需要花费一年多的时间。而目前可用的归档软件能够轻松的从归档软件供应商A迁移至供应商B,对于不使用专有磁带格式的厂商来说,这是更为顺畅的过程。本文将不涉及这一点,而且这点也是取决与厂商的。磁带介质迁移是非常困难的,这就需要精心的策划,以确保一切顺利。
以下是需要考虑的因素:
硬件因素
依据归档软件,需要在迁移规划中评估四种类型的硬件:
1、 磁带驱动器,不管是新的还是旧的都需要评估
2、 连接硬盘的FC交换机端口
3、 RAID存储
4、 服务器
新旧磁带驱动器的数量需要依据以下两个因素来确定:
1、 你能承受的迁移所用时间
2、 用户目前负载的内容、你满意的程度和迁移过程中需要满足的负载
1、磁带
确定需要的磁带驱动器数量不是一件容易的事。你需要多少新的和旧的磁带驱动器来满足用户需求?当所需迁移的数据增多时,你将需要增加多少新的磁带驱动器?这些变化只在当前出现吗?如果一项进程要等候重新获取归档数据,这对数据中心有何影响?显然,要解答这一系列问题非常困难,如果你拥有足够多的校正数据,一部分问题也能够被模式化。但是有部分问题是不能被模式化的,比如一项任务在等候对运行的影响。从旧磁带读取数据再转至新磁带需要多长时间也是非常复杂的问题。
为容量为800 GB、速度为120 MB/sec的LTO-4磁带驱动器做个简单的运算,要读取完整个驱动器将花费两个小时的时间。因此,假设你一旦开始从驱动器读取数据,那么磁带驱动器将运行两个小时,典型的策略是读取完磁带中的数据。当然,这是一个HSM软件潜在的策略问题。这仅仅是迁移过程中必须考虑的问题之一。
归档支持的时间区域是多少?典型的用户任务时间是什么时候?这些问题都可依据归档数据的数据使用模型而定,而归档负载经常变化,所以很难判定归档负载的内容。总得来说,你必须备有超额的磁盘驱动器,这是因为驱动器的使用时间通常都超过预期。
这往往会变成预算平衡问题——旧磁带驱动器成本通常相对较低,而新驱动器成本相对较高。然而,你等候迁移的时间越长,磁带驱动器和磁带的成本就越低,但考虑到旧驱动器上的数据量,它所需的时间就越长。因此,很难去确定一个最佳的成本模式。
2、FC交换机端口
更多的磁带驱动器和潜在存储,也意味着需要更多的交换机端口。你可能需要足够多的备用端口用于增加新的硬件。如果新存储和磁带驱动器要求下一代FC,你还有可能需要升级交换机。
3、RAID存储
大多数归档系统都必须从旧磁带上读取数据,继而写入磁盘,再从磁盘读取,写入新磁带。如果归档软件要求你使用磁盘作为迁移过程的一部分,你将需要额外的存储空间和带宽来支持迁移。额外的数量按照多余的带宽和存储空间而定。例如,端到端的读取LTO-4磁带和写入LTO-5使用了大量的空间和带宽。如果你想写入整个磁带,那么你必须读取1.5 TB的空间、140 MB/s的持续带宽写入磁带,如果数据是压缩形式,带宽可达到240 MB/sec。这是很大比例的RAID控制器带宽,大约是8 Gb FC持续带宽的30%。
4、服务器
需要将数据读取至磁盘的归档系统(与磁带到磁带的迁移相反),会需要更多的CPU资源,以读取数据、验证校验码和写校验码。它们也需要更多的内存带宽和PCIe总线带宽,以将数据移进和移出系统。拥有足够的合适的服务器去匹配存储和磁带带宽的增加是架构设计问题的一部分。
很显然,每家归档软件厂商都拥有一套支持数据迁移至新磁带硬件的工具。这些工具通常具有许多可调整的参数,使管理员能够控制迁移速度及对系统的影响。通常情况下,这些参数是按照负载进行调整。但鉴于读取磁带的持续时间(及急剧增加的时间,而不是减少的时间),就必须在需求之前慎重考虑整个调整问题。
用户
用户对资源的可用性都有期望。通常情况下,这些都将被编写为服务水平协议(SLA)。如果你正在迁移磁带,会用到更多的资源,你就必须确定对用户和商定的SLA的影响。这往往需要权衡迁移时间和用户将看到的响应时间。
一切归结于成本
如果你有足够的费用和时间来架构和建立所有的新硬件,你当然可以将PB级的数据读取并写入新磁带。但现实中不会发生这样的情况。迁移从不需要花费十年的时间才能完成,甚至五年也很少用到。如何平衡用户需求、硬件需求以及发展迁移计划始终存在的财政压力将是一项重大的挑战。
旧硬件的维护问题可能经常被忽略,但有时会为此付出昂贵的代价。磁带库插槽的空间和成本是另一个必须考虑的问题。空间用尽之后购买另一个磁带库,迁移至更新的高密度磁带能够节约成本。考虑到变量的数量以及复杂的事务,比如用户需求、现有硬件配置、维修费用、空间不足购买新磁带库的成本等等,一张简单的电子表格不可能解决这些问题。事情的变化往往无法预知,因此磁带迁移并不简单,它不能精确的实现。
多数情况下,笔者依靠的是工程判断,一般在一年之内完成迁移,最长时间为18个月。笔者尝试增加磁带驱动器和存储的数量,在只剩少量的情况下开始,并在磁带和驱动器价格下降后的几个月进行购买,还试图依据历史数据来测定价格下降的时期。磁带在大型归档系统中通常是最昂贵的项目(比如50000盒平均价为85美元的磁带总价会超过420万美元),所以尽可能等待是可以节约一大笔成本的。
磁带迁移并不简单,而且成本昂贵。然而倘若等到磁带和硬件寿命已尽,那时要付出的成本可能更加昂贵,数据也会处于一种不安全的状态。因此,切莫忽视磁带迁移,否则后果不堪设想。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者