容灾的话题一直很热,但是可供分析的实际案例却往往很少,往往是由于各种原因,相关人相互推诿,知情人讳言莫深,外人根据流出的只言片语胡乱猜测,往往与事实相差甚远,其结论往往反而误导了大众,以至于对这个重要问题的探索和研究变得十分困难。
既然如此,我们就拿出一些我们亲身经历的实际案例,当做小白鼠与大家分享,希望能够对大家研究规划和管理自己的容灾系统有所帮助。这个案例从很多角度看并不算一个特别完美的宣传样板,但是正因如此,才更具有实际的代表性,更有分享的价值。
特别要声明,为了避免不必要的麻烦,本文隐去当事人和单位名称,除此以外,完全真实。
“案情”
今年4月21日,14:00左右,一家列入世界500强的大型国企,业务部门反映人力资源系统无法办理业务。IT部门马上开始故障排查,发现故障原因是由于误删除导致了数据库故障,导致相关系统无法运行。数据库容量约1.4TB。于是17:30左右开始启动灾难恢复机制。
17:30:首先,IT主管决定提取了上午10点的历史时间点快照进行数据验证。结论是数据库可以正常启动。于是开始向主存储上恢复数据。
20:30左右:数据恢复完成。
21:00:启动数据库,数据库可以正常启动。然后应用厂商调试相关的应用软件。
23:30:应用厂商验证数据时,发现数据库有一个表的索引仍然存在问题,需要手动对索引进行调整。调整所需要的时间很难确定,为了减少恢复时间,IT主管决定重新提取CDP快照数据,改为提取上午9:00的快照。
0:00左右:验证了9点快照数据库可以启动。
0:00-1:45:对9:00的快照进行验证,验证结果正常。
凌晨2:00左右:快照数据恢复到主存储。数据库正常运行,业务系统恢复运行,系统恢复完成。
这是一个通过容灾系统成功恢复数据的典型场景。由于人为错误导致的停机,通过CDP进行恢复,首次恢复时的时间点选择不对,但是直到恢复之后才发现,于是选择了更早的时间点终于恢复成功。整个系统停机时间约12个小时。
分析
下面我们对这个案例的一些特别值得关注的细节进行一下分析:
结论
这个案例虽然不是如同产品演示一样完美,停机时间也比较长,但是就当时的条件和具体情况而言,算是一次成功的灾难恢复。试想如果同样的灾难发生在那些把希望寄托在双活和异地容灾上的用户,很有可能根本无法恢复系统运行;如果使用磁带库和备份软件恢复,可能要花多得多的时间才能把1.4TB的数据库恢复到更早的一个时间点。相比之下,在此案例中,因为采用了CDP,每次实际数据恢复的时间只有15分钟左右。也正因为用户把CDP的快照频率设为一小时,才有可能相对较快地恢复到相对较近的时间点。虽然IT没能一开始就准确决策应该采用哪个快照,但是发现问题后迅速调整,有效减少了停机时间。因此,我们觉得,这是一次成功的案例,而且遇到了很多典型的困难,特别值得拿出来和大家分享。希望大家能够从中有所收获。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。