扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
最近,Permabit与Isilon展开了一场论战,焦点指向大数据。Permabit强调其Albireo重复数据删除技术可用于横向扩展文件数据存储,且在不影响性能的情况下,能将存储成本减少十倍。
我们曾问过Isilon首席技术官Rob Peglar:“横向扩展文件系统会受益于重复数据删除文件吗——假定那不会降低性能?”
他表示重复数据删除影响存储性能和成本,对大数据不利,不应该使用。以下便是Rob Pegla和Permabit两方的“辩论”观点:
Rob Peglar:答案是否定的。首先,这个假定就不正确,任何数据精简技术,不管是数据压缩、重复数据删除还是incrementalisation,都会对性能(时间)有所消耗。此外,重复数据删除还对空间有消耗;这就是元数据和数据之间的折衷。
在大规模的情况下,重复数据删除元数据将变得意义重大。例如,拥有每4KB数据(常见粒度)的哈希表(CRC)对于一个小规模的数据存储库就意味着4万亿条元数据,一个4PB的小型数据仓库。
Permabit:Rob,我们诚挚的反对你的看法,相信行业内的其他厂商同样如此,你所说的情况可能对于传统(备份)重复数据删除解决方案是正确的,但Permabit Albireo却不一样。
重复数据删除的元数据是随着被储存的唯一数据的增长而增长,所以在一个数PB级的系统中,你需要磁盘来存放重复数据删除元数据。这的确是事实,但和像Albireo这样的系统没有相关性,开销占用比例为4K数据块占用约大于1%多的磁盘空间。因此,如果你减少5到10倍的空间,获益是相当巨大的。
Rob Peglar:如果每个哈希结构仅为64位或8个字节,非常小,这就意味着32TB的哈希元数据任何时候在所有节点之间都是完全一致的。
Permabit:相比这个例子,Albireo的效率要高出很多个数量级。Albireo只需要每个索引数据RAM的0.1个字节。因此,你举例的4PB数据,Albireo只需要100GB的哈希元数据,而不是32TB。
Rob Peglar:一方面,不仅需要将32TB数据储存在稳定且受保护的存储中,还需要保证该存储速度足够快,几乎需要赶上CPU的速度才能接受这些数据。每个节点都用32TB的RAM保存哈希列表,这是成本所不允许的。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者