扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
基于磁带和基于磁盘的归档均以惊人的速度在发展,甚至超过了存储密度的增长和存储可靠性的发展。人类保存的数据不断增加,这是不可能改变的事实。部分原因在于我们无法预计数据什么时候不重要,什么时候重要,而且也没有一个标准框架。
由于没有工具可以让我们知道什么时候以及是否应该删除数据,我们就必须归档所有数据。这也是为什么我们有越来越多的数据要归档和保护。在大型归档系统中,文件的保护要求为每个文件生成一个校验和,并需要为归档系统中的每一个文件进行定期验证以确保数据完整性。当校验和无效时,就需要采用第二个文件有效拷贝的软件,然后用有效拷贝替换被破坏的文件。
有人说,校验和验证可以使归档问题转化成HPC(高性能计算)问题。笔者认为,归档系统的目标是,归档信息与原信息的相同程度必须精确到字位,除非文件因为格式更改等原因而重写。
可能有人会对此说法有所疑虑,笔者的解释是,因为大型保存归档系统需要大量的计算能力、内存带宽、PCIe总线带宽和存储带宽,与HPC计算在架构上非常相似,只不过后者更注重计算和I / O性能。
现如今,许多保存归档系统的容量都远远超过5PB,少部分更是超过10PB,这些归档系统有望增长超过100PB。这种大型归档系统对HPC架构对校验和验证的需求和一些标准的HPC模拟问题类似,比如天气、碰撞和其他模拟。
计算性能
大多数高性能计算问题需要大量的浮点运算,但诸如遗传模式匹配的一些问题也需要大量的整数性能。在大型档中,必须定期验证校验和,频率取决于硬件质量和数据量,但即使是优良的硬件也可能发生故障进而破坏数据。
一些归档系统使用商用硬件,众所周知这些硬件存在可靠性问题,不仅限于无奇偶校验的内存、低端的网络适配器和消费级硬盘,相比ECC内存、具有SAS磁盘驱动器的高端RAID控制器、企业级磁带系统等,他们存在着更多的无记载数据损坏问题。校验和必须定期验证,校验算法也必须强健,这都需要大量的计算资源。
为验证一个文件的校验和,必须从磁盘或磁带将整个文件读取到内存中,再将校验算法应用到数据读取,然后将刚计算的校验和与储存的校验和相比较,储存的校验和应该被验证,这样才能确定是用一个有效的校验和在与读取到内存中的文件做对比。对于大型归档系统,这是一个不间断的进程,不管数据是保存在磁盘还是磁道,但校验和验证对于基于磁盘且装备消费级存储的归档系统至关重要。
内存带宽
HPC问题几乎总是涉及等待内存请求的CPU核心。事实上,有些人开玩笑地说,这就是HPC问题的定义。同样,校验计算也需要大量的内存带宽,这将闲置核心。由于必须将整个文件读入核心,并运算一次校验和算法,这时不会有任何缓存的重用数据作为文件流通过缓存,直到整个文件到达核心被处理完成。
可能有人会认为大多数的内存带宽都被用于将数据读入内存;因为所有文件都是在磁盘或者磁带上的,这些文件必须读到内存中。这实际上是从PCIe总线写入内存,再从内存读取到核心以供计算校验和。因此对于校验和计算,内存用于读取和写入的比例约为50/50,因为文件从PCIe总线被写入内存,再从内存读取到核心并被处理。当然,在处理校验和过程末期还必须将其与原始生成的校验和作比较。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。