互联网高速发展,数据的爆炸式增长,给企业带来更多的发展机遇。但同时也为IT部门带来更多的压力。因为如果发展数据存储系统故障导致数据错误和丢失,可能会给企业带来灾难性的后果。如何在灾难和故障发生的时候,确保数据可用,同时实现业务恢复,实现数据的持续保护?
本文结合火星舱的CDP与HA,谈一谈实现自动与手动容灾接管对于实现业务恢复以及数据持续保护的应用。我们今天讨论的“接管”,所指的是高可用(HA)或者说业务连续性,而不仅仅指存储的恢复。
业务连续性实现方式
我们知道传统意义上的自动接管,需要具备HA双机软件,侦测故障发生并执行切换,通常是在有共享存储的情况下切换服务器。这时存在一个问题,如果共享的磁盘阵列坏了怎么办?尽管有许多双控制器存储号称没有单点故障了,但他们一般最多宣传99.999%的可用性,也就是依然有宕机的可能。就像某国外厂商说的,背板故障也不是没遇到过...
火星舱CDP的手动接管,是在生产存储出现设备故障和数据错误时,将CDP磁盘组挂载到生产服务器或者备用服务器,恢复数据库和/或者应用的正常运行。那么,有没有将CDP连续数据保护与传统服务器双机结合使用的方法呢?答案是肯定的。
但有些灾难和故障发生时,不仅是数据错误或者存储系统的故障,这时用户除了确保数据可用之外,还要考虑如何恢复业务。
HA考虑因素:备机与共享存储
这里用户应该根据自己的实际情况来部署,首先考虑的因素是备机:是选择物理服务器、专用的虚拟化容灾服务器(外部),还是火星舱内置的虚拟机。
选择物理服务器、专用的虚拟化容灾服务器其性能和可用性都是最好的,但成本投入也比较大;虚拟化可以做多对一的业务接管,设备的利用效率提高,可能需要购买虚拟化软件许可;而采用火星舱,不用投入单独的设备,火星舱内置虚拟机会分享火星舱本身的硬件资源,但是性能上会受一定的限制。最重要的是用户根据自己的情况来选择适合自己的场景。
另一个考虑因素,如果做服务器双机HA自动接管,是否有共享存储也是一个需要考虑的问题。
如果是“双机单柜”,在增加了火星舱CDP之后就是“双机双柜”了,当故障切换发生时备机第一时间接替对生产存储——共享磁盘阵列的访问,同样连接两台主机的CDP磁盘组也要切换过去,同时备用服务器上安装的镜像代理程序要无缝接管写入拆分的任务,继续保持火星舱与生产存储之间的数据同步。
当生产服务器的故障修复后,火星舱CDP保护任务,还能随着两套存储的“回切”而一并切回至生产主机。
要是没有共享存储呢?如果应用数据位于生产服务器内置硬盘(通常也做了RAID),服务器宕机后上面的数据也无法访问了,此时服务器切换的HA软件会将备用服务器连接的“共享盘”指向CDP磁盘组,这样就相当于火星舱CDP完成了数据同步复制的工作。
在成本有限、业务压力相对不高的情况下,如果采用火星舱虚拟机作为备机,CDP+HA方案加上生产服务器一共只需要两台设备。这时虚拟机到CDP磁盘组的连接可在设备内部直接高效实现。
最后,谈谈数据块级同步CDP,在双机HA + 数据容灾方案中的优势。
首先,火星舱CDP可以保护任何块存储设备,也就是操作系统中可以看到的任何磁盘。包括外部连接的FC SAN、iSCSI还是DAS存储,也可以是服务器机箱内的单个硬盘或者RAID卡配置的阵列。对于后者这一点,磁盘阵列厂商的同步镜像/复制是无法解决的。
其次,对于许多文件级CDP和基于日志的异步复制方案,通常是定时传送变化数据,或者先临时保存在本地暂存区。这时一旦生产存储不可访问,CDP备用设备上的数据与生产数据之间会有一个差异量。也就是说在切换时很可能会丢数据!
而火星舱则不存在上述的问题,这就是我们在前两篇文章中曾经介绍过的“RPO=0”和“块级同步保护”。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。