扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
小结
Rob Peglar在回顾这些观点时表示:“虽然我很高兴看到哈希的改善,但最基本的事实仍然是:重复数据删除可能会在某些方案(比如虚拟机图像)中节约一些空间,但‘大数据’通常高度唯一且极少被重复数据删除。”
“例如,网页点击量和终端用户的通信,数以亿计的人们都拥有移动手机,每天千分之一的人进行核磁共振扫描,数百万分之一的人在那天申请Facebook账户或进行信用卡交易。每个终端用户都是唯一的(在定义上),都必须能够被分析软件所识别。每次点击都在不同的时间点进行、一直变化、一直产生增量。”
如果这些点击被分成64KB的数据块用于重复数据删除分析,几乎就没有唯一。因为大数据的时间敏感属性——它不仅仅是内容,也是内容生成的时间,这些数据不同于你提到的数据,比如主目录、Office生成的文档和结构化数据。我现在讨论的是非结构化、高度唯一的大数据,这类数据是由各种各样的人在每时每刻所生成的。
“因此,对于‘大数据’,重复数据删除不是一个好的折衷方案——即使CPU的速度无限快,你也不能节约大量的磁盘空间。相比较而言,传统VM或者VDI,其OS图像是不可变的且大部分都为只读,对于它们,重复数据删除是一个不错的折衷方案。”
“但这不是行业内目前试图解决的问题,亟需解决的问题是接收、分析和长期存储以及大容量唯一且不断变化数据的保护。
“再者,尽管如此,我非常高兴看到哈希技术的改善;创新是好的。”
最后结果:两种不同的观点。它们能够集结到一起吗?
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。