如何打造具备FIP高容错特性的分布式存储?
存储、计算和网络是构成现代化信息系统的三大部件。在2021年3月中央发布的“十四五”规划中,“大规模分布式存储”被列为明确的发展重点。所谓分布式存储,是相对于传统集中式共享存储的一种新技术概念。在过去30年里,中国企业普遍采用IBM、EMC、NetApp等国外知名厂商的磁盘阵列,其架构体系主要是以RAID控制器为技术核心的集中式共享存储架构。分布式存储是通过软件定义存储技术,把多台x86服务器的CPU、内存、固态硬盘(SSD)、机械硬盘(HDD)等存储资源,进行统一资源管理,通过高速网络将数据分散存储在各台服务器中。
自云计算诞生以来,企业井喷式的数据处理业务量对IT的系统计算与存储能力都提出了非常高的要求。传统集中式存储面临数据孤岛、扩展困难、成本高昂等挑战,与此同时,分布式存储由于其易于扩展和管理、成本低、硬件灵活度高、可快速集成等明显优势,逐渐成为全球的技术发展趋势,也将作为中国企业数字化转型的重要基石。
分布式存储是一个技术难度被显著低估的技术领域。随着HDFS、Lustre、GlusterFS、Ceph等开源分布式软件项目的兴起,一个中等程度的软件工程师可以在一天或一周时间内搭建一个分布式存储系统。包括华为、新华三、BAT、以及一些初创公司,在这些开源项目基础上通过魔改,推出分布式存储相关产品和服务,给行业带来严重假象,似乎存储没有什么技术门槛。然而,无论是互联网公司,还是在企事业单位,由于使用分布式存储导致的业务中断、甚至数据丢失的报导屡见不鲜。
为什么(分布式)存储是一个技术壁垒很高的行业?这是由于存储最基本的核心诉求是数据不丢失、业务不中断。一个典型的存储系统包含上百万个电子元器件、上亿行软件代码,里面任何一个元器件老化失效、电子信号干扰、软件Bug、系统意外掉电,都有可能导致数据丢失。由此可见,要打造一个高可靠、高性能的分布式存储系统绝非易事。
一个合格的存储系统须具备高度容错能力,是能够在线更换故障或老旧部件的软硬件系统,需要同时满足几个方面的要求:高可靠性的数据存储基础、对数据错误具有自愈能力、正常运行和自愈过程均对前端应用无性能影响、以及较高的存储效率。存储系统的数据安全性就好比飞机的安全性,业务中断就好比重大飞行事故,数据丢失对于一个存储系统而言,就好比飞机失事,带来灾难性的破坏和难以估量的重大影响。
飞机是一个典型的具有高度冗余、高容错性的机电系统,其安全性依赖于Fail-in-place(FIP)高容错技术,即在飞行过程中,飞机任何零部件发生故障或失效故障时,飞机仍然可以安全返回机场并平安着陆,然后才进行必要的维修。FIP容错的一个重要特征是,允许故障延迟修复,而不是必须立即解决或以最快的速度修复故障,否则可能会发生灾难性事故。要实现FIP容错,飞机采用了高度冗余设计,具备极强的故障告警、自动诊断、故障隔离,甚至自我修护的能力。
基于三副本架构的分布式存储是否具备FIP容错能力呢?答案是否定的。
三副本分布式存储通过将数据的三个副本分散保存在三个不同节点上。这种纯粹的网络副本保护机制虽然实现简单,但其数据可靠性严重依赖数据修复的速度和系统规模。随着硬盘数量增加,系统可靠性随之降低,尤其是当磁盘老化、硬件故障率上升,再加上网络可能出现的不稳定状况,以及磁盘可能出现的隐形数据失真等,三副本架构容易出现不稳定,甚至数据丢失的情况。当出现硬盘或节点故障时,三副本架构需要尽快进行数据重建恢复,以免出现多个硬盘同时出现损坏而导致数据丢失的情况。
三副本分布式存储多节点硬盘损坏导致数据丢失
和三副本分布式存储相比,双重RAID架构的分布式存储则具有显著的FIP高容错特性。双重RAID架构,采用节点内RAID数据保护与节点间副本保护相结合的方式。每个节点采用RAID10或RAID50/60 实现节点内数据保护,可实现硬件故障隔离和本地数据修护。每个节点相当于一个小型的“磁盘阵列”,可抵御节点内单个、甚至多个硬盘故障。在这些“磁盘阵列”之间,还有另外一层基于网络副本的数据保护层,保证在极端情况下,即当故障突破磁盘阵列的保护能力时,还可利用网络副本技术来修复数据。
正因为这种双层RAID保护机制,当节点硬件出现故障时,可以通过本地RAID对故障进行隔离,不影响业务正常运行。故障修复可以采用延迟修复的策略,并且能自动避让业务,即当业务繁忙时,数据修复减慢数据;当业务空闲时,数据修复可以适当加快速度。
双重RAID容忍多节点磁盘损坏
对比之下,三副本架构的分布式存储存在严重的数据安全隐患以及网络导致的稳定性问题。双重RAID架构的分布式存储,作为南京道熵的核心技术,因其具备独特的FIP高容错特性,代表着未来分布式存储的发展方向,也标志着中国存储企业已经具备挑战世界一流存储企业的技术实力。
好文章,需要你的鼓励
施耐德电气以“新质服务+产业向‘新’行”为主题,第六次参会,展示全新升级的“新质服务体系”,围绕创新驱动、生态协同和行业赋能三大核心领域,以全新升级的“新质服务体系”,助力中国产业向高端化、智能化、绿色化迈进。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
甲骨文正在成为大规模基础设施供应商的可靠选择。该公司通过AI技术推动应用开发,构建GenAI模型并将智能代理集成到应用套件中。CEO萨弗拉·卡茨透露,公司剩余履约义务达4553亿美元,同比增长4.6倍,并预测OCI收入将从2026财年的180亿美元增长至2030财年的1440亿美元。甲骨文正积极布局AI推理市场,凭借其作为全球最大企业私有数据托管方的优势地位,有望在云计算领域实现重大突破。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。