互联网高速发展,数据的爆炸式增长,给企业带来更多的发展机遇。但同时也为IT部门带来更多的压力。因为如果发展数据存储系统故障导致数据错误和丢失,可能会给企业带来灾难性的后果。如何在灾难和故障发生的时候,确保数据可用,同时实现业务恢复,实现数据的持续保护?
本文结合火星舱的CDP与HA,谈一谈实现自动与手动容灾接管对于实现业务恢复以及数据持续保护的应用。我们今天讨论的“接管”,所指的是高可用(HA)或者说业务连续性,而不仅仅指存储的恢复。
业务连续性实现方式
我们知道传统意义上的自动接管,需要具备HA双机软件,侦测故障发生并执行切换,通常是在有共享存储的情况下切换服务器。这时存在一个问题,如果共享的磁盘阵列坏了怎么办?尽管有许多双控制器存储号称没有单点故障了,但他们一般最多宣传99.999%的可用性,也就是依然有宕机的可能。就像某国外厂商说的,背板故障也不是没遇到过...
火星舱CDP的手动接管,是在生产存储出现设备故障和数据错误时,将CDP磁盘组挂载到生产服务器或者备用服务器,恢复数据库和/或者应用的正常运行。那么,有没有将CDP连续数据保护与传统服务器双机结合使用的方法呢?答案是肯定的。
但有些灾难和故障发生时,不仅是数据错误或者存储系统的故障,这时用户除了确保数据可用之外,还要考虑如何恢复业务。
HA考虑因素:备机与共享存储
这里用户应该根据自己的实际情况来部署,首先考虑的因素是备机:是选择物理服务器、专用的虚拟化容灾服务器(外部),还是火星舱内置的虚拟机。
选择物理服务器、专用的虚拟化容灾服务器其性能和可用性都是最好的,但成本投入也比较大;虚拟化可以做多对一的业务接管,设备的利用效率提高,可能需要购买虚拟化软件许可;而采用火星舱,不用投入单独的设备,火星舱内置虚拟机会分享火星舱本身的硬件资源,但是性能上会受一定的限制。最重要的是用户根据自己的情况来选择适合自己的场景。
另一个考虑因素,如果做服务器双机HA自动接管,是否有共享存储也是一个需要考虑的问题。
如果是“双机单柜”,在增加了火星舱CDP之后就是“双机双柜”了,当故障切换发生时备机第一时间接替对生产存储——共享磁盘阵列的访问,同样连接两台主机的CDP磁盘组也要切换过去,同时备用服务器上安装的镜像代理程序要无缝接管写入拆分的任务,继续保持火星舱与生产存储之间的数据同步。
当生产服务器的故障修复后,火星舱CDP保护任务,还能随着两套存储的“回切”而一并切回至生产主机。
要是没有共享存储呢?如果应用数据位于生产服务器内置硬盘(通常也做了RAID),服务器宕机后上面的数据也无法访问了,此时服务器切换的HA软件会将备用服务器连接的“共享盘”指向CDP磁盘组,这样就相当于火星舱CDP完成了数据同步复制的工作。
在成本有限、业务压力相对不高的情况下,如果采用火星舱虚拟机作为备机,CDP+HA方案加上生产服务器一共只需要两台设备。这时虚拟机到CDP磁盘组的连接可在设备内部直接高效实现。
最后,谈谈数据块级同步CDP,在双机HA + 数据容灾方案中的优势。
首先,火星舱CDP可以保护任何块存储设备,也就是操作系统中可以看到的任何磁盘。包括外部连接的FC SAN、iSCSI还是DAS存储,也可以是服务器机箱内的单个硬盘或者RAID卡配置的阵列。对于后者这一点,磁盘阵列厂商的同步镜像/复制是无法解决的。
其次,对于许多文件级CDP和基于日志的异步复制方案,通常是定时传送变化数据,或者先临时保存在本地暂存区。这时一旦生产存储不可访问,CDP备用设备上的数据与生产数据之间会有一个差异量。也就是说在切换时很可能会丢数据!
而火星舱则不存在上述的问题,这就是我们在前两篇文章中曾经介绍过的“RPO=0”和“块级同步保护”。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。