6月伊始,互联网行业就被两大阴云笼罩,先是支付宝因“光纤被挖断”大规模服务中断,接着携程网又因“内错误操作”宕机近12小时,两大知名互联网企业的IT灾难,使如何应对“突发事件”、保证业务连续运营再次成为IT行业的热门话题,这也成为日益上升的“互联网+”迫在眉睫要解决的首要任务。
作为同样对业务连续性要求相当严格的金融行业,早在多年前就开始着手于灾备系统的建设,以在出现突发性事件,如自然灾难、逻辑故障、人为故障等情况时,保证前台业务系统的连续运营以及灾难/故障的快速恢复。同时,为了避免所建的灾备系统出现只备不用、备时无用的现象,银行客户对于灾备系统的演练也非常重视。只有这样,才能切实保障金融机构的业务连续稳定运行。
2012年8月3日,在辽宁省某市遭受特大暴雨的重大灾难情况下,辽宁某银行在北京灾备中心的灾备系统及时有效地接管了位于重灾区的某银行数据中心生产系统,确保了该银行业务持续运营,使其成为灾区第一家全业务网点恢复开门营业的银行,为保障当地金融稳定发挥了重要作用。下面就让我们详细了解一下事件过程:
1. 应急抢险稳运营
8月4日12:00,受第10号台风“达维”影响,辽宁省某市遭遇特大暴雨,导致洪水泛滥,全市停电,交通瘫痪,对生产中心位于某市的某银行带来了极大的威胁。在因交通中断,发电机可能因柴油耗尽无法保障发电能力的情况下,某银行授权北京灾备中心接管生产,保障该行业务运营。
8月5日24:00,在市供电和交通恢复后,受某银行委托,北京灾备中心安全回切生产中心继续运营。本次整个重续和回切过程中,没有数据补录过程,没有一笔数据丢失,切换时间31分钟,回切时间57分钟。
2. 灾备演练打基础
7月31日,北京灾备中心在按照演练计划安排,在某银行实施灾备演练,经过多次成功预演准备和培训,8月4日4:00,某银行的正式灾备演练工作顺利完成,这为后来特大暴雨灾害的应急处置打下了良好基础。
3. 及时接管保生产
8月4日12:00分,因暴雨导致供电、交通瘫痪,在发电机储备油即将用尽又无法续油,暴雨、洪水没有丝毫减退趋势的情况下,银行决定将生产中心紧急切换至北京灾备中心,由灾备中心的飞康CDP灾备系统接管某银行核心系统生产运营。灾备中心与生产中心现场工作人员联动操作,迅速按照接管服务流程,安全关停了生产中心,启动灾备网络和灾备系统,在银行业务人员对灾备系统数据完整性和一致性核查验证正确后,进入接管运营。
4. 快速回切续营业
8月5日21:00,经市政府积极有效的抢险救灾,市里恢复了交通、供电。23:00,公司在收到银行回切生产中心的要求后,北京灾备中心迅速启动回切流程,进行数据复制关系反转,将接管运营一天半的生产数据回传到营口盖州市生产中心,经技术、业务验证正确后,于24:00恢复本地运营。
5. 过硬技术护全程
数据是银行最重要的资产,也是信息化时代银行的生存之本。面对灾难,如何让数据安全有效的转移,并非一日之功,涉及银行数据存量、数据增量、数据媒介、数据种类、数据处理和数据关联等多种因素。
在文中讲述的救灾事件中,飞康CDP技术无论在重灾区的生产中心还是在北京灾备中心都起到了至关重要的作用:
飞康CDP技术具有对本地存储高可用性保护功能,当本地生产存储发生故障,飞康CDP可以快速接管,实现本地数据的零丢失。
同时,飞康CDP技术不仅仅可以防护物理故障带来的数据丢失风险,通过快照和录像技术还可以防护逻辑操作带来的数据丢失风险。飞康CDP技术在本地的快速恢复功能,可以尽可能减少灾难发生的概率及影响范围。
飞康CDP的快速切换,快速重续业务运行,以及安全便捷的回切功能,能够简化操作流程,减少操作人员出错概率,确保灾难发生后,灾备中心能够快速、安全的恢复生产运行。
相对于金融行业IT前瞻性及丰富经验,“互联网+”绝对是时下的经济热词,它可以利用互联网技术和平台,让传统行业获得新的生机、创造新的价值、体现新的发展生态,而无论“互联网+”如何发展,业务系统的稳定运行都是保证生存、保证营收的第一要务。选择可靠的灾备技术,做好灾备应急系统的基础建设,为“互联网+”奠定坚实基石!
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。