分布式存储的技术趋势（三）：双重RAID机制与三副本对比

双重RAID究竟能否有效解决三副本的缺陷？让我们从二者之间的对比开始。

在前面我们分析了三副本的潜在隐患，也介绍了双重RAID架构的工作原理与技术特点。双重RAID究竟能否有效解决三副本的缺陷？让我们从二者之间的对比开始。

故障修复时间更短，业务影响更小

硬盘损坏时，双重RAID机制优先通过节点内RAID恢复数据，该恢复机制可自动调节速度以避让工作负载，前端业务无感知。无需触发网络数据重建，从而有效地避免了网络重建风暴。

节点故障时，可通过迁移磁盘到另一台物理服务器，实现节点迁移（无需拷贝或重建数据）。SVM存储池上每个磁盘记载关于存储池构成的全部信息，分布式存储的vOSD的ID号及用户数据，保存在SVM存储池的虚拟卷上，自动随着SVM存储池的迁移从一台物理服务器迁移到另一台物理服务器，主机名及vOSD的ID号保存不变，实现快速节点修复。

容错性更强，可允许多节点同时有磁盘损坏

三副本分布式存储通过跨节点的副本保护，可有效防止单个或两个磁盘损坏对业务数据的影响，但是容错性受到限制，如在三副本的情况下，不同故障域内之间，最多只能允许2个节点有磁盘损坏，超出2个节点出现磁盘故障，则极有可能发生数据丢失，如图1所示。

图 1 三副本分布式存储多节点硬盘损坏导致数据丢失

铁力士分布式存储通过双重RAID 机制，能够将容错性提升一个数量级。如图2所示，以节点内RAID 10+节点间2副本为例，当每个节点都出现磁盘故障的时候，可以通过节点内RAID 分别修复，保障整个系统数据无丢失，业务无中断。

图 2 双重RAID容忍多节点磁盘损坏

数据持久性（Durability）高出一个数量级

下面通过具体数值来比较三副本与双重RAID的数据持久性（可靠性）。数据持久性指标可通过存储系统的AFR（Annual Failure Rate）来衡量。考虑一个1000个6TB硬盘的存储集群，每个机械硬盘的MTTF（Mean Time to Failure）为1000，000小时。在计算中需要运用两个著名的MTTF公式，一个是关于RAID6，其MTTF=(MTTF)*(MTTF)*(MTTF)/(N*(N-1)*(N-2)*MTTR), 另一个是关于RAID5，其MTTF=(MTTF)*(MTTF)/(N*(N-1)MTTR), 其中MTTR（Mean Time to Repair）是硬盘平均修复时间。

在三副本条件下，存储系统共有333组三副本，每组三副本的MTTF相当于N=3的RAID6，在分布式并发修复的条件下，MTTR通常为3小时（每半小时修复1TB数据），因此每组三副本的MTTF =1000000*1000000*1000000/(3*2*1*3)=5.56x 10¹⁶ 小时，而整个系统的MTTF = 5.56x 10¹⁶ /333 =1.67x 10¹⁴ 小时。折算为AFR（一年共8760小时），AFR=8760/(1.67x 10¹⁴) =5.2x 10^-11。

在双重RAID情况下，考虑节点内采用(2+1) RAID5，存储系统共有333组RAID5，为简化计算，考虑每组RAID对应于两个vOSD，12TB数据。据测算，RAID5的MTTR为30小时，每组RAID5 （vOSD）的MTTF=1000000*1000000/(3*2*30)=5.56x 10⁹ 小时。当一个RAID5组损坏时，由于vOSD在跨节点之间有镜像保护（其可靠性相当于N=2 RAID5），采用分布式并发修复12TB数据，每半小时修复1TB数据，需6小时，因此，其MTTR=(5.56x 10⁹ )* (5.56x 10⁹ )/（2*1*6）=2.58x 10¹⁸ 小时。考虑到整个存储系统有333组RAID5, 因此整个系统的MTTF=2.58x 10¹⁸/333 =7,75x 10¹⁵ 小时，相当于三副本MTTF的46倍。折算为AFR，双重RAID的AFR=8760/(7.75x 10¹⁵)= 1.1x 10^-12 。

对比三副本和双重RAID的数据持久性，可见双重RAID的数据可靠性高于三副本一个数量级以上。

总结

铁力士分布式存储将传统磁盘阵列的RAID技术、存储虚拟化管理技术与分布式存储技术相结合，有效地解决了普通分布式存储面临的IO分布不均匀和木桶效应导致的性能缺陷，大幅度提升系统IOPS性能，并避免了普通分布式存储因网络重建风暴而可能导致的稳定性隐患。同时，双重RAID架构的数据可靠性高于三副本分布式存储一个数量级以上。

来源：业界供稿

0赞

好文章，需要你的鼓励

分布式存储的技术趋势（三）：双重RAID机制与三副本对比

来源：业界供稿

2021

03/08

16:12

分享

点赞

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

Confluent Cloud为智能体提供实时数据流处理能力

数字化转型失败的6个警示信号

OpenAI CEO阿尔特曼承认当前处于AI泡沫期

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

HPE Alletra X10000 重新定义横向扩展存储架构

Qumulo 挑战主流数据结构供应商

意大利医疗机构选择 Cubbit 作为 S3 备份解决方案

Hammerspace 与 Cachengo 合作拓展边缘托管业务

IBM 全面更新Storage Ceph平台

三种方法帮助你确保新转型计划的进程

中国分布式存储产业未来空间广阔（2024）

世界知识产权日：以更多架构核心专利，推进 SDS 产业创新创造

华瑞指数云ExponTech WDS新一代产品重新定义企业存储和数据架构

聊聊分布式存储中的“慢盘”现象及对策

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: