扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:Zxm(整理) 2005年12月13日
关键字:
在本页阅读全文(共7页)
案例:中国台湾屈臣氏谈灾难复原
某个台风侵袭的夜晚,正当台北市所有的居民都躲在家里渡过台风夜时,台北市松山区银行里地下室的保险箱,被突如其来的大雨淹没了整个地下室。狂风豪雨袭卷台北街头,不断冲刷的大雨肆无忌惮地倾泄进入银行的地下室,保险箱已灭顶在茫茫大水之中,这一夜风雨就这样的在残暴的台风肆虐中,过去了,没有人发现,地下室淹水了。
隔日阳光再度露脸,台北市居民再度恢复平常的朝气与活力,开始新的上班日。可是,此时台湾屈臣氏的信息部办公室却引起一阵不小的骚动,IT人员面色凝重,到底发生了什么样的大事?让信息部主任张善宏焦虑的皱着眉头?就在大家多在家里渡纳莉台风的那晚,台湾屈臣氏放在银行保险箱里的几卷磁带就这样随着地下室淹水,而付诸流水。
张善宏表示,2001年9月17日纳莉台风是一场恶梦,数据是企业的命脉,淹掉了磁带,也就等于让公司的数据像是泡在水里的废纸,上面的字迹糊成一片,就算把纸拿起来晒干了,再也看不到原本写在纸上的信息是什么了,只有糊成一片的蓝色墨水。磁带平常就需要注意不要受潮,以免黏带而读不出资料,更何况是整卷泡在水里,那就更不用说这些磁带还有什么可用性了。
天灾人祸有太多不可抗力的因素,造成企业即使备份到磁带的数据,也可能像屈臣氏这样因台风大雨成灾而导致磁带泡水,无法再使用。如果当初有在另外一个地点,设置异地灾备中心,企业资料就不会“仅此一份”,当遇到灾难时,也不用担心资料不见的恐惧。因此,从纳莉台风的这次教训,张善宏表示,真的深刻的体会到企业异地存储的必要性与重要性。张善宏表示,对于竞争激烈的零售业而言,非常仰赖IT技术来提升竞争力,尤其屈臣式的分店众多,商品种类繁多,商品价格关系到市场竞争优势,这些资料若不见了,对零售业的打击相当严重。
屈臣氏在台湾的展店速度相当快,目前全省各地已经有340多家门市,面对庞大的分店信息系统,对IT部门的挑战更为急迫。如何同时让全省340多门市的数据可以同步更新完毕?如何同时将数据备份,传回总公司的Data Center?门市店数越多,I/O传输量将越大,对于网络频宽的需求就越大。台湾屈臣氏信息部处长沈富涛表示,在经历过纳莉水灾过后,实时平时将数据备份至磁带,还是遭遇磁带泡水的悲惨命运,这时异地灾备的重要性就突显出来。异地灾备本来就是不怕一万,只怕万一的状况,就像为企业资料买保险,保险的用途是在发生状况时,有买就有保佑,没买就倒大霉的状况。
当初在建置异地灾备系统时,地点的选择相当重要,虽然说天灾人祸难防,但灾备的地点应选择在地势较高,非地震常发生的地点,大楼本身的防震与楼层的承载重量也需要衡量。张善宏表示,网络频宽是异地灾备成功与否的关键因素之一,当你发现为何备份没有成功,或者备份速度过慢,很多状况发生在网络频宽不够大。当初,屈臣氏预估5MB频宽的的专线灾备,到最后还是发现频宽不够。以屈臣氏的经验,网络专线的频宽绝对要估算得比平常更大些,才足够应付数据量的传输。
台湾屈臣氏异地灾备架构图,整个系统逐步上线,并且将数据进行重要性程度的分类,还要规划服务器与磁盘阵列间的配合度,以及网络基础建设的规划
许多企业都想要做异地灾备,但是却都不知从何下手。异地灾备不是多买一套设备就够了,“灾备”的意思就是,有“备”要能“援”,才有用,否则都只是梦一场。因此,张善宏就台湾屈臣氏异地灾备的经验,提供企业在异地灾备时,需要注意下列几点:1.异地灾备需注意系统与数据的“回复”(Recovery & Retrieval)功能。2.除了数据备份之外,更应该将备份延伸数据库(Database)的备份。3.信息系统备份以及应用程序,皆需备份至远地端,其优点为本地端若遭毁损,远地端即可立即接续服务。
在台湾屈臣氏的备份政策上,每日的重要数据做完整备份(Full Backup),每日与每月的月结报表需固定产出,AD目录也完整备份至紧急应变中心。并且,启用双灾备机制,设置双不断电系统(UPS),双网络回路,任何一端网络断线,可有另外网络联机以接续备份。硬件部分,设置有热拔插的功能,一旦硬盘毁损,立刻抽换硬盘,系统仍可正常运作,无需中断或关机,因此所有的运作都在在线(on-line)完成备份与灾备。
扩充性,对于异地灾备也相当重要,企业规划时需考虑硬件与软件的扩充性。如果当初购买了的硬设备日后无法再升级或扩充,当数据成长时,企业需再购置新机器,而不能延用旧设备,这对异地灾备的投资成本会变得无限上纲,软件升级也一样。异地灾备虽有“救急”功用,若让远地端系统永远像企业数据的“第二个家”,那才是更安稳的作法。
台湾屈臣氏如何建置纳莉水灾后的灾难复原系统呢?张善宏表示,首先针对公司内部数据的重要程度进行分级,也就是“信息生命周期管理”(Information Life-Cycle Management,ILM)的概念,依数据的重要性逐步上线。接下来,将刀片服务器(Blade Server)架设完备,再将Windows Server 2003之AD目录建好,再来安装本地端(Local)的存储设备,接着安装远程(Remote)的存储设备与数据库系统,并利用假日的时间进行资源调整,其中需特别注意所有软件的兼容性。
在逐步上线的过程中,下列几点需特别注意:1.刀片服务器与存储设备之间的硬件架设规划是否可以配合得很好,例如,刀片服务器与磁盘阵列系统EVA3000之间的相互配合性;2.基本网络服务的规划,尤其是网络频宽的部分,若预算足够在预估频宽时采高容量方式;3.数据库之间的转移需事先演练;4.各服务器之转移以及效能调整;5.进行实际的异地灾备演练,并且检测演练的测试报,并针对不足的地方再加以改善。
张善宏表示,透过这次的经验,他认为异地灾备可以成功的关键因素,就是频宽的大小。因为当数据量太大,频宽不足的情况下,I/O塞车,灾备不容易成功。企业客户要如何衡量公司内部的数据量与频宽大小呢?灾备政策采用备份数据的“异动量”,而不是数据的增加量,备份数据的“异动量”能缩减传输时对频宽的需求,也不至于让存储媒体的容量于瞬间就爆增至警界线。接下来,需要考虑尖峰时间的数据异动量与平时的数据量的差距有多大?才不会导致备份当机。IT人员需列出工作排程分配,灾备时也不能影响到系统运作,因此,异地灾备演练相当重要。请IT部门定期举行异地灾备之演习,平时将状况进行微调,就可以在有状况时,因应得宜。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。