科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道容灾不可贪大求全—山东移动业务支撑系统容灾经验谈

容灾不可贪大求全—山东移动业务支撑系统容灾经验谈

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

山东移动通过对自身需求的争析,建成了能充分满足企业需要的灾备系统,并在方案本身、宕机时间和成本之间寻找到了平衡。

作者:中国移动山东公司/崔可升 2007年6月27日

关键字: 容灾 山东移动 BOSS

  • 评论
  • 分享微博
  • 分享邮件

    引言:有些企业认为,投巨资建成了容灾系统后,所有的风险就可以化解,因此在做灾备系统建设的时候常贪大求全。山东移动通过对自身需求的争析,建成了能充分满足企业需要的灾备系统,并在方案本身、宕机时间和成本之间寻找到了平衡。

    集中化管理是IT系统发展的一个趋势,山东移动也在完成BOSS系统的集中化管理后,大大提高了系统的可维护性、可管理性、可扩充性。但是正如把一筐鸡蛋放进一个篮子里风险加大一样,集中化管理也会带来一定的风险。

    因此如何提高系统运行的高可靠性、抵抗灾难、提高业务连续运行的能力就成为山东移动面临的一个挑战。为此,山东开始实施BOSS的灾难备份系统建设,经过可行性研究分析,最终选定了主备容灾方式的容灾系统。

    有效解决容灾难题

    2005年10月,山东移动开始进行主备容灾系统建设。经过了广泛的技术论证和测试,根据各个子系统的特点,最终选定了不同的容灾技术。

    BOSS的容灾备份系统分为营业、帐务、采集、计费、结算、查询共6个子系统,6个灾难备份子系统之间关系复杂,每个子系统还和外部很多接口密切相关,因此,系统非常复杂。

    要让如此复杂的系统达到较高的安全目标,只有灾难备份系统还是不够的。

    2006年3月,主备方式的容灾系统建设基本完成,为了检验建设目标的实现情况,山东移动在多次桌面级容灾演练的基础上,进行了一次真实切换回切演练,演练结果表明各项指标均满足设计指标要求。

    主备级容灾系统建设运行后,BOSS系统的容灾能力和系统抗风险能力得到大幅提升。但也存在一些问题:在应对业务高峰期等非灾难状态时,备份中心不承担生产任务;软件版本状态难以进行验证;灾难发生进行容灾切换时,业务影响面大。

    于是,2006年初,在中国移动集团公司的技术规范容灾系统演进思路指引下,经过深入论证后,山东移动决定建设双中心容灾系统。借鉴在单中心实现动态资源管理的经验,在双中心系统设计中,全部采用动态资源管理,主机投资比不实行动态资源管理方式节省投资36%以上,而且双中心方式对资源的利用率大大提高,系统的抗风险、抗负载能力大大加强。

    建设容灾系统应注意三大问题

    根据经验和教训,山东移动认为,建设容灾系统应该注意几个问题:

  • 1、明确容灾系统容什么?

    有企业认为,投巨资建成了容灾系统,所有的风险就可以化解了,这是一个误区。

    建设容灾系统首先要明确容什么样的灾难,即进行系统风险分析。

    风险是多种多样的,有计划内和计划外的,计划内系统停顿风险主要包括有计划进行应用软件升级改造、数据中心整合或迁移、系统测试等。计划外业务停顿风险主要包括:自然灾难、硬件故障、软件故障、传输网络、人为因素、其他因素等。

容灾不可贪大求全—山东移动业务支撑系统容灾经验谈

    如图所示,系统硬件在风险中占的比例最大,但通过在一个中心进行合理的规划和测试,就可以消除风险。

  • 2、都有哪些灾难?

    如果不能进行有效控制或容忍的风险,对系统来说就是灾难。很多人对灾难的印象就是火灾、水灾等自然灾害,建设容灾系统是为了应对这些自然灾害,其实这也是一个误区。

    客观上火灾、水灾等自然灾害是存在的,但对IT系统来说,造成灾难的远不仅仅是这些。

    人为操作故障、系统处理能力下降、备份不可用等高概率事件,对系统安全影响非常大。这就要求在设计系统时,要充分考虑要建设的容灾系统应该容哪些灾难、选用哪些技术和方案。

  • 3、明确容灾指标?

    容灾系统的建设是为实现容灾指标服务的,在确定建设容灾方案前要有明确的步骤,不应该先建容灾系统,应该由容灾系统的能力确定提供的容灾指标。这要求在容灾系统建设前对所有业务进行分析,对容灾指标进行评估。

    保持成本与恢复目标的平衡

    灾难保护计划的目的是,确保关键业务持续运行以及减少非计划宕机时间。所有与容灾方案相关的计划都试图在方案本身、宕机时间和成本之间寻找一个平衡。合适的就是最好的,灾难保护计划切忌贪大求全。

    很多单位建设容灾系统,重视硬件系统的投资,那是看得见的“实实在在”的容灾系统,而轻视在容灾恢复计划(DRP)中的“软件”投入,其实这是非常严重的错误。

    如果没有一套行之有效的DRP,在灾难发生时,即使硬件是运行正常的,也可能忙中生乱,产生更大的乱子。

    总之,我们认为,BOSS容灾建设是一个较长期的过程,需要分阶段发展。BOSS容灾的演进要结合BOSS的建设计划,分步骤进行,充分保护现有投资。BOSS容灾演进的过程需要充分考虑现有资源的利用,充分保护现有投资。在可持续演进方面,BOSS容灾需要充分考虑系统的持续演进需求,前期建设要为后期能力提升做好基础工作。

    本文版权归作者及CWEEK所有,未经授权不得转载。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章