前言:由于众多出色的开源项目的存在,在不少人眼里,分布式存储似乎很容易。事实真是如此吗?
诚然,几个工程师可以在三到六个月时间掌握并DIY搭建一个基于开源的分布式存储集群,然而,保障并运维该集群,每年的人工成本动辄数十万、甚至上百万。除了成本高,随着硬件老化导致故障率升高,业务的连续性与数据安全也无法得到保障。
存储圈流传这样一个说法,无论存储研发还是存储运维,都是一个危险系数很高的职业。
为什么?计算、网络、存储构成现代IT系统三大基石。计算还是网络出问题,通常是局部单机故障,大概率可通过重启来解决,而存储一旦出问题就是全局系统故障,轻则业务中断,重则数据丢失。存储作为IT基础设施的基石,责任至关重大。
圈内人士总是对存储有无穷的敬畏,越是大牛越是如此。而圈外人士往往低估存储的门槛,认为只要投钱花时间就能搞出牛逼的存储产品。这里面直接忽略了科学理论、工程技术的系统复杂性和人的决定性因素。
存储系统是一个复杂的软硬件一体的系统工程,需要严谨的理论架构和工程化来保证数据安全性和系统稳定性,存储的底线和红线是不允许丢失数据。存储算法理论、系统架构、硬件结构、操作系统、软件工程等各个环节都非常复杂。系统复杂性决定了存储研发不可能是一件容易的事,对于存储新产品技术要在无人区不断摸索和试错,对理论创新、系统架构、工程化能力要求很高,这些都直接决定了存储的极高门槛。
分布式存储,国内存储采用开源路线居多,同质化现象严重,大多采用Ceph或GFS(Google File System)为蓝本的三副本分布式存储。殊不知存储系统本质上是一个要求极高的高容错系统,即使在硬件局部失效、软件BUG等极端情况下,要求数据仍然安全,业务仍然保持持续。三副本分布式存储在稳定性与可靠性方面,远远不如基于RAID技术的传统磁盘阵列,为什么?
最根本的原因在于:三副本分布式存储严重依赖网络间副本的一致性来实现数据保护,而基于网络的数据一致性,在网络出现分区故障时容易受到破坏。著名的CAP原理是分布式系统最基本、最重要的理论之一,最初由加州柏克莱计算机科学家布鲁尔教授在2000年提出猜想,两年后由麻省理工的吉尔伯特和林奇教授证明。CAP原理的核心是:当分布式系统出现网络问题(Network Partition),人们只能在数据的一致性(Consistency)与可用性(Availability)二选一。
这意味着,在三副本系统中,当网络出现故障时,如果要保持业务在线,即保证Availability(可用性),根据CAP原理,无论软件设计多么巧妙,运维团队多么优秀,仍然无法保证数据副本之间的一致性,最终可能只有一个副本保存了最新数据,即降级为两副本甚至单副本,成为IT系统中无形中的“危楼”:一旦出现系统掉电或硬件故障,很可能导致严重的数据丢失现象。
如何远离分布式存储的危楼? 如何解决三副本对数据安全带来的潜在威胁?
道熵推出的双重RAID架构是彻底清除上述“危楼”的有效方法。双重RAID将节点内RAID数据保护技术与跨节点的网络RAID技术相结合,将网络副本或EC码建立在节点内RAID基础之上,即使在出现网络故障的情形下,依靠每个节点内的RAID数据保护,仍然可以保证数据无忧,可有效解决分布式系统中因网络故障而带来的安全隐患。可见,双重RAID既具备磁盘阵列里常见的节点内RAID功能所带来的高可靠、高稳定的特点,同时拥有分布式系统所带来的高扩展性的优势。
双重RAID由节点内RAID与跨节点网络RAID实现双重数据保护,展现出超强的故障容错能力:以10个节点的拔盘测试为例,三副本架构中,拔出第三个磁盘就会出现业务中断、数据丢失的现象;而在双重RAID架构中,即使每个节点拔出一个磁盘,系统业务仍然不受影响,数据安全无忧。
道熵分布式存储还实现了两级自适应智能缓存加速、小块写聚合为大块顺序写、数据完整性校验、故障自动检测与数据自修复等先进技术;每个节点可支持数十TB固态硬盘缓存,其Cache命中率可从磁盘阵列中常见的60%提升至90%。与Ceph三副本相比,双重RAID可将IOPS性能提升3到5倍,平均读写延迟降低50%,能够承载5到10倍的虚拟机及容器等业务负载。
总结:存储系统软件是一个复杂的软硬件一体的系统工程,需要严谨的理论架构和工程化来保证数据安全性和系统稳定性。开源分布式存储在稳定性、可靠性、性能、运维能力等方面与专业存储存在较大差距。更进一步,分布式系统中著名的CAP定理表明,单纯依靠网络副本或网络RAID的数据保护机制存在明显缺陷。道熵创新推出的双重RAID分布式存储,有机地将磁盘阵列的节点内RAID技术与分布式技术结合起来,不仅具备磁盘阵列所具有的高稳定、高性能的特点,同时具备分布式系统高扩展的优势。
更多资讯请关注道熵www.horebdata.cn
好文章,需要你的鼓励
OpenAI宣布获得400亿美元融资,估值飙升至3000亿美元,成为史上最大私募投资。这笔资金将用于AI研究、基础设施和产品开发,显示了AI在企业技术领域的重要性日益提升。OpenAI用户数量激增,每小时新增100万,反映出其在激烈竞争中的强劲增长。此轮融资强化了OpenAI在企业AI解决方案市场的地位,企业决策者需密切关注AI技术的快速发展。
OpenAI 宣布计划发布自 2019 年以来首个"开放权重"语言模型,这标志着该公司战略的重大转变。这一决定源于开源 AI 的经济压力,反映了基础模型商品化的趋势。此举可能重塑企业 AI 实施策略,尤其是在受监管行业中。OpenAI 面临在开放性和责任之间取得平衡的挑战,同时也凸显了 AI 行业竞争格局的根本变化。
Microsoft 正在对 Windows 系统崩溃时显示的蓝屏 (BSOD) 进行重新设计。新设计简化了界面,保留了技术信息,旨在提高用户生产力恢复速度。新版 BSOD 移除了表情符号和二维码,但保留了错误代码和失败进程信息。这一变更反映了 Microsoft 对提升用户体验的持续关注。
CarMax 作为美国最大的二手车零售商,年收入超过 265 亿美元。在 Shamim Mohammad 的领导下,公司成功实现了数字化转型,成为汽车行业的领先者。通过建立强大的技术基础、优化数据策略、应用人工智能技术,以及采用产品运营模式,CarMax 正在重塑汽车零售的未来。Mohammad 的前瞻性领导力和对创新的不懈追求,使 CarMax 在数字化时代保持竞争优势。