扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:存储时代——张广彬 2005年8月25日
关键字:
在本页阅读全文(共5页)
8秒钟——TLER与时间赛跑
大家都知道,“多用户环境”也好,“企业级应用”也罢,对硬盘来说意味着同一件事——组成RAID使用。然而,很多用户和系统集成商反映,将ATA硬盘应用于RAID应用时,经常会遇到在单个物理驱动器未出现故障前提下脱离RAID卷(即所谓“掉盘”)的情况,这是什么原因呢?
AMCC资深产品行销经理巨擎天先生认为,上述情况的出现,固然不是硬盘品质的问题,但也不是RAID卡的责任——它只是“照章办事”而已。换句话说,就是原本为在典型桌面环境下应用设计的ATA硬盘被配置在企业级RAID环境中有点“水土不服”。
我们知道,所有的ATA硬盘本身都有错误恢复以及坏区重置特性,当一块ATA硬盘处于错误恢复状态时,它不会发出任何错误信息也不会响应来自RAID控制器的任何指令,当这个过程持续到超过8秒的时间时,糟糕的事情发生了:RAID控制器会自动卸载掉超过8秒没有任何响应的物理驱动器并报告错误,然后开始进入其自身的错误恢复过程——8秒的阈值并非特殊设定,而是广泛存在于ATA/SCSI RAID适配卡设计内的工业标准。
失去了一个物理驱动器的磁盘阵列会根据其RAID模式做出反应:RAID 0模式会丢失所有数据;RAID 1模式下将失掉镜像功能;RAID 5模式则会让阵列降级并需要大量时间来进行恢复。这样的结果对于像视频监视、邮件服务器和Web服务器等高I/O负载的应用是无法接受的,它们要求24×7的在线提供服务,即使因为某些原因必须要暂停服务,也必须要在非常短的时间内恢复。但恰恰就是这类同时连接数多的高I/O应用对磁盘的多处和同一处频繁存取最容易让ATA硬盘进入错误恢复状态,于是使用普通ATA硬盘搭建的企业级应用磁盘阵列在高强度应用下频繁故障。试想一下,半瘫痪的高达几个TB容量的RAID5模式卷,需要几个小时甚至整天的时间来恢复,对于任何企业都是无法忍受的。
不过,要协调ATA硬盘较长时间错误恢复过程和RAID控制器8秒没收到硬盘响应进入其自身错误校正状态的冲突其实并不难,只需在时间控制上略施小计即可。
控制时间的技巧是这样处理ATA硬盘和RAID控制器各自的错误恢复功能冲突的:当进入正常的自身错误恢复状态时,并不是像其他ATA硬盘一样持续这个过程而不发出/响应任何信息和指令——相反的,如果特殊为RAID控制器设计的固件检测到本次错误恢复无法在短于8秒的某个规定时间(譬如7秒)之内完成的话,便会在每个第7秒的时刻向RAID控制器发出信息宣示它的存在,RAID控制器就能够在8秒的阈值检测到这个物理驱动器仍然在线,从而不会将其卸载,RAID卷自然就不会损坏,系统停机以及冗长的RAID卷恢复动作也就不会发生。事实上,这种“小聪明”式的技术早已在SCSI硬盘中广泛应用,现在由ATA硬盘来实现也并不困难。WD Raptor和Caivar RE/RE2所用的TLER(Time Limited Error Recovery,限时错误恢复)就是这样的技术。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者