互联网高速发展,数据的爆炸式增长,给企业带来更多的发展机遇。但同时也为IT部门带来更多的压力。因为如果发展数据存储系统故障导致数据错误和丢失,可能会给企业带来灾难性的后果。如何在灾难和故障发生的时候,确保数据可用,同时实现业务恢复,实现数据的持续保护?
本文结合火星舱的CDP与HA,谈一谈实现自动与手动容灾接管对于实现业务恢复以及数据持续保护的应用。我们今天讨论的“接管”,所指的是高可用(HA)或者说业务连续性,而不仅仅指存储的恢复。
业务连续性实现方式
我们知道传统意义上的自动接管,需要具备HA双机软件,侦测故障发生并执行切换,通常是在有共享存储的情况下切换服务器。这时存在一个问题,如果共享的磁盘阵列坏了怎么办?尽管有许多双控制器存储号称没有单点故障了,但他们一般最多宣传99.999%的可用性,也就是依然有宕机的可能。就像某国外厂商说的,背板故障也不是没遇到过...
火星舱CDP的手动接管,是在生产存储出现设备故障和数据错误时,将CDP磁盘组挂载到生产服务器或者备用服务器,恢复数据库和/或者应用的正常运行。那么,有没有将CDP连续数据保护与传统服务器双机结合使用的方法呢?答案是肯定的。
但有些灾难和故障发生时,不仅是数据错误或者存储系统的故障,这时用户除了确保数据可用之外,还要考虑如何恢复业务。
HA考虑因素:备机与共享存储
这里用户应该根据自己的实际情况来部署,首先考虑的因素是备机:是选择物理服务器、专用的虚拟化容灾服务器(外部),还是火星舱内置的虚拟机。
选择物理服务器、专用的虚拟化容灾服务器其性能和可用性都是最好的,但成本投入也比较大;虚拟化可以做多对一的业务接管,设备的利用效率提高,可能需要购买虚拟化软件许可;而采用火星舱,不用投入单独的设备,火星舱内置虚拟机会分享火星舱本身的硬件资源,但是性能上会受一定的限制。最重要的是用户根据自己的情况来选择适合自己的场景。
另一个考虑因素,如果做服务器双机HA自动接管,是否有共享存储也是一个需要考虑的问题。
如果是“双机单柜”,在增加了火星舱CDP之后就是“双机双柜”了,当故障切换发生时备机第一时间接替对生产存储——共享磁盘阵列的访问,同样连接两台主机的CDP磁盘组也要切换过去,同时备用服务器上安装的镜像代理程序要无缝接管写入拆分的任务,继续保持火星舱与生产存储之间的数据同步。
当生产服务器的故障修复后,火星舱CDP保护任务,还能随着两套存储的“回切”而一并切回至生产主机。
要是没有共享存储呢?如果应用数据位于生产服务器内置硬盘(通常也做了RAID),服务器宕机后上面的数据也无法访问了,此时服务器切换的HA软件会将备用服务器连接的“共享盘”指向CDP磁盘组,这样就相当于火星舱CDP完成了数据同步复制的工作。
在成本有限、业务压力相对不高的情况下,如果采用火星舱虚拟机作为备机,CDP+HA方案加上生产服务器一共只需要两台设备。这时虚拟机到CDP磁盘组的连接可在设备内部直接高效实现。
最后,谈谈数据块级同步CDP,在双机HA + 数据容灾方案中的优势。
首先,火星舱CDP可以保护任何块存储设备,也就是操作系统中可以看到的任何磁盘。包括外部连接的FC SAN、iSCSI还是DAS存储,也可以是服务器机箱内的单个硬盘或者RAID卡配置的阵列。对于后者这一点,磁盘阵列厂商的同步镜像/复制是无法解决的。
其次,对于许多文件级CDP和基于日志的异步复制方案,通常是定时传送变化数据,或者先临时保存在本地暂存区。这时一旦生产存储不可访问,CDP备用设备上的数据与生产数据之间会有一个差异量。也就是说在切换时很可能会丢数据!
而火星舱则不存在上述的问题,这就是我们在前两篇文章中曾经介绍过的“RPO=0”和“块级同步保护”。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。