扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
阻止沉默的数据杀手
很多人被"bit rot"问题弄糊涂了--例如,他们把硬盘放在机架或者电脑里,一两年都不用,一些电子就有可能从正极移动到负极,引起数据损坏或故障。Silent corruption则是另一类问题,它指的是被送给磁盘的数据错误。取"silent"(沉默的)这个名字是因为这种错误有时候几个月都不会被人发现--一切看起来都很正常,直到有一天需要访问这个块或者备份数据的时候,错误才会被发现。
当然,光纤通道和SATA使用了数据校验技术和修正算法来处理错误,一些方法在几十年前就开始使用了,那个时候当通道速度还只不到今天的1/10的时候--当时的速度大约是25 Mbps,而今天的通道速度已经超过400 Mbps了。而且现在的通道数量也比以往更多。结果是那时候的代码无法适应现代的环境。
那么它可能造成哪些影响呢?有可能会让整个文件系统里丢失一个文件,也有可能让数据库出现故障。一些科学家已经开始采取行动了,他们提醒世界这个问题的存在。计算机科学家Vijayan Prabhakar在"Iron File Systems"中的讨论了这个问题。欧洲核能研究组织CERN的IT专家Peter Klemenen也在致力于解决SATA磁盘的这个问题。
Klemenen 表示,"Silent corruptions是人生中无法回避的一项事实。形成解决方案的第一步是探测到错误,彻底消除问题的产生似乎不可能。
因此,厂商开始致力于T10 DIF(Data Integrity Field)标准,用它对企业存储系统进行完全的端到端数据完整性校验。但是,这只对FC和SAS有用--可是错误率最高的却是SATA。
因此DII(Data Integrity Initiative)扩充了它的覆盖范围。它是由Oracle、Emulex、LSI Corp。 和Seagate Technology提出的一个设想。
Williams 表示,"DII关注的是一类没有受到通讯网络中checksum算法保护的数据损坏问题。""损坏绝大部分是由于软件或固件故障造成的。但是硬件故障,还有人为因素也会破坏数据。DII提倡的方式是一种端到端的方式,延展了T10 DIF标准。
Williams承认尽管数据破坏的情况发生的概率很低,但是所造成的影响却是极具破坏性的。DII实际上是结合了T10 DIF和Oracle早期的HARD项目--Hardware Assisted Resilient Data(硬件支撑数据恢复)。DIF从HBA到磁盘驱动器,而HARD则是从HBA到应用。DII的目标是覆盖包括应用在内的一切。
Williams 表示,"我们的行动主要针对的是Linux域,因为它和Oracle天生在策略上就很合适。""它的开放天性让Oracle可以在这个领域进行创新,这在其他的操作系统上是不容易实现的。
LSI 的高级联盟经理Richard Vanderbilt认为Oracle将是第一家提供T10 DIF产品的厂商--Oracle Storage Manager(OSM)文件系统针对Linux系统内嵌了T10 DIF。他表示,Emulex也将很快推出一款FC HBA产品,LSI计划在2008年底将这一技术引入该公司的高端阵列之中。
Vanderbilt 表示,"DII将把Silent Data Corruption出现的概率降到最低,否则这些错误会好几个月之后才被人发现。""这就避免出现这种尴尬情况:几个月以来备份的一直是错误数据,却只在要进行恢复的时候才发现数据是坏的。
它发生在设备和存储子系统之间。数据在被写入一个块的时候会报告给相邻的块,一个最终用户的错误将会导致索引区域被覆盖,核心内存的一个缓存错误也许会导致一些数据在该被写入的时候没有被写入。
Vanderbilt 表示,"T10 DIF并不是所向无敌的银子弹,但是它解决了绝大部分的Silent Data Corruption问题。""通过在每个点确认数据的做法,我们可以把Silent Corruption降至最低。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者