容灾的话题一直很热,但是可供分析的实际案例却往往很少,往往是由于各种原因,相关人相互推诿,知情人讳言莫深,外人根据流出的只言片语胡乱猜测,往往与事实相差甚远,其结论往往反而误导了大众,以至于对这个重要问题的探索和研究变得十分困难。
既然如此,我们就拿出一些我们亲身经历的实际案例,当做小白鼠与大家分享,希望能够对大家研究规划和管理自己的容灾系统有所帮助。这个案例从很多角度看并不算一个特别完美的宣传样板,但是正因如此,才更具有实际的代表性,更有分享的价值。
特别要声明,为了避免不必要的麻烦,本文隐去当事人和单位名称,除此以外,完全真实。
“案情”
今年4月21日,14:00左右,一家列入世界500强的大型国企,业务部门反映人力资源系统无法办理业务。IT部门马上开始故障排查,发现故障原因是由于误删除导致了数据库故障,导致相关系统无法运行。数据库容量约1.4TB。于是17:30左右开始启动灾难恢复机制。
17:30:首先,IT主管决定提取了上午10点的历史时间点快照进行数据验证。结论是数据库可以正常启动。于是开始向主存储上恢复数据。
20:30左右:数据恢复完成。
21:00:启动数据库,数据库可以正常启动。然后应用厂商调试相关的应用软件。
23:30:应用厂商验证数据时,发现数据库有一个表的索引仍然存在问题,需要手动对索引进行调整。调整所需要的时间很难确定,为了减少恢复时间,IT主管决定重新提取CDP快照数据,改为提取上午9:00的快照。
0:00左右:验证了9点快照数据库可以启动。
0:00-1:45:对9:00的快照进行验证,验证结果正常。
凌晨2:00左右:快照数据恢复到主存储。数据库正常运行,业务系统恢复运行,系统恢复完成。
这是一个通过容灾系统成功恢复数据的典型场景。由于人为错误导致的停机,通过CDP进行恢复,首次恢复时的时间点选择不对,但是直到恢复之后才发现,于是选择了更早的时间点终于恢复成功。整个系统停机时间约12个小时。
分析
下面我们对这个案例的一些特别值得关注的细节进行一下分析:
结论
这个案例虽然不是如同产品演示一样完美,停机时间也比较长,但是就当时的条件和具体情况而言,算是一次成功的灾难恢复。试想如果同样的灾难发生在那些把希望寄托在双活和异地容灾上的用户,很有可能根本无法恢复系统运行;如果使用磁带库和备份软件恢复,可能要花多得多的时间才能把1.4TB的数据库恢复到更早的一个时间点。相比之下,在此案例中,因为采用了CDP,每次实际数据恢复的时间只有15分钟左右。也正因为用户把CDP的快照频率设为一小时,才有可能相对较快地恢复到相对较近的时间点。虽然IT没能一开始就准确决策应该采用哪个快照,但是发现问题后迅速调整,有效减少了停机时间。因此,我们觉得,这是一次成功的案例,而且遇到了很多典型的困难,特别值得拿出来和大家分享。希望大家能够从中有所收获。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面