容灾的话题一直很热,但是可供分析的实际案例却往往很少,往往是由于各种原因,相关人相互推诿,知情人讳言莫深,外人根据流出的只言片语胡乱猜测,往往与事实相差甚远,其结论往往反而误导了大众,以至于对这个重要问题的探索和研究变得十分困难。
既然如此,我们就拿出一些我们亲身经历的实际案例,当做小白鼠与大家分享,希望能够对大家研究规划和管理自己的容灾系统有所帮助。这个案例从很多角度看并不算一个特别完美的宣传样板,但是正因如此,才更具有实际的代表性,更有分享的价值。
特别要声明,为了避免不必要的麻烦,本文隐去当事人和单位名称,除此以外,完全真实。
“案情”
今年4月21日,14:00左右,一家列入世界500强的大型国企,业务部门反映人力资源系统无法办理业务。IT部门马上开始故障排查,发现故障原因是由于误删除导致了数据库故障,导致相关系统无法运行。数据库容量约1.4TB。于是17:30左右开始启动灾难恢复机制。
17:30:首先,IT主管决定提取了上午10点的历史时间点快照进行数据验证。结论是数据库可以正常启动。于是开始向主存储上恢复数据。
20:30左右:数据恢复完成。
21:00:启动数据库,数据库可以正常启动。然后应用厂商调试相关的应用软件。
23:30:应用厂商验证数据时,发现数据库有一个表的索引仍然存在问题,需要手动对索引进行调整。调整所需要的时间很难确定,为了减少恢复时间,IT主管决定重新提取CDP快照数据,改为提取上午9:00的快照。
0:00左右:验证了9点快照数据库可以启动。
0:00-1:45:对9:00的快照进行验证,验证结果正常。
凌晨2:00左右:快照数据恢复到主存储。数据库正常运行,业务系统恢复运行,系统恢复完成。
这是一个通过容灾系统成功恢复数据的典型场景。由于人为错误导致的停机,通过CDP进行恢复,首次恢复时的时间点选择不对,但是直到恢复之后才发现,于是选择了更早的时间点终于恢复成功。整个系统停机时间约12个小时。
分析
下面我们对这个案例的一些特别值得关注的细节进行一下分析:
结论
这个案例虽然不是如同产品演示一样完美,停机时间也比较长,但是就当时的条件和具体情况而言,算是一次成功的灾难恢复。试想如果同样的灾难发生在那些把希望寄托在双活和异地容灾上的用户,很有可能根本无法恢复系统运行;如果使用磁带库和备份软件恢复,可能要花多得多的时间才能把1.4TB的数据库恢复到更早的一个时间点。相比之下,在此案例中,因为采用了CDP,每次实际数据恢复的时间只有15分钟左右。也正因为用户把CDP的快照频率设为一小时,才有可能相对较快地恢复到相对较近的时间点。虽然IT没能一开始就准确决策应该采用哪个快照,但是发现问题后迅速调整,有效减少了停机时间。因此,我们觉得,这是一次成功的案例,而且遇到了很多典型的困难,特别值得拿出来和大家分享。希望大家能够从中有所收获。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。