业务挑战
地铁是城市交通的主要工具,全国各省市的地铁业务一片蓬勃。在杭州市的计划中,将于2022年亚运会之前开通12条线路,其中1号线与5号线的地铁运营由杭港地铁负责。为了确保杭州地铁1号线与5号线的正常运转,避免因IT基础架构问题给地铁线路造成影响,杭港地铁先后建立了两个数据中心,当一个数据中心发生异常,可以即时切换到另一个相同的数据中心,通过异地双活的架构来保障业务的稳定性和高可用性。
两个数据中心上运行的是杭港地铁的管理业务系统,涵盖了工作人员、车辆之间的连接业务、停车场和车辆管理等在内的办公和管理系统。尽管管理业务系统实现了网络隔离,但也面临着安全的威胁,一旦受到攻击或出现异常后不能及时恢复数据,将会对车辆的停放、维修、设备维护、乘务人员的调配等工作产生影响,严重的话甚至会导致列车延误,给乘客带来不便。因此数据的备份与恢复至关重要。
据杭州杭港地铁有限公司高级信息技术经理李添天介绍,两个数据中心共有200多台基于VMware的虚拟机,为了确保数据安全和业务连续性,杭港地铁最初采用了传统的磁带备份方案,但是该系统完全无法满足杭港的要求。
首先,该备份系统出现过核心业务系统备份成功,但恢复时操作系统不能启动的情况,例如在系统升级、打补丁等日常操作中,数据不能100%恢复,导致业务数据丢失。
其次,数据发生异常或丢失后,数据恢复时不能满足杭港30分钟内找回数据的需求,更不能准确地恢复到指定目标原点。通常恢复一个业务需要几个小时,对地铁调度系统、OA系统、内部通报系统以及检修系统造成很大的影响,导致地铁业务正常开展。例如:调度系统不能快速恢复,就需要人工调度,致使地铁列车每班之间的间隔变大,影响运营效率;内部通报系统出现问题,发生地铁故障时不能全员通知,容易造成安全隐患。
再者,因为是基于磁带的备份系统,数据备份和恢复过程复杂,每一台服务器都要安装一个代理程序,每次升级就需要在200台虚机上重复安装操作,加重了运维人员的工作量。
因此,杭港地铁亟需寻求更加高效、可靠的数据管理解决方案,以确保数据备份的效率,数据恢复的成功率、准确率,以及业务的连续性,与此同时,减轻IT运维团队的工作量和压力,提升管理效率。
Veeam解决方案
2019年8月,杭港地铁将Veeam® Backup & Replication™产品引入到其数据中心。截止目前,杭港地铁已经将数据从主数据中心迁移到另一个数据中心,主数据中心机房将重新改造。同时,所有业务运行在容灾数据中心,待主数据中心改造完毕,业务将再平衡,从而实现双活数据中心。
“我们的两个数据中心几乎全部基于VMware虚拟化技术,而Veeam在虚拟机环境的数据备份和恢复表现优异。同时,Veeam也可以兼顾物理机上的数据备份与恢复,能够满足数据中心的所有数据备份和容灾需求,”杭港地铁高级信息技术经理李添天如此介绍道。
在部署Veeam Backup & Replication产品之后,无需安装任何代理程序,就可以做到在几分钟内快速备份和恢复虚拟机上的数据,省时省力;而且能够对备份数据进行自动化的有效性验证,确保数据完整备份。在数据恢复阶段,通过使用Veeam的Data Lab功能,杭港地铁可以配置所有备份任务自动化验证机制,能够在关键时刻确保备份数据100%恢复——确保了业务数据不再丢失。
目前,其业务恢复时长(RTO)可以达到30分钟以内,有力地保障了杭港地铁业务的连续性。同时,Veeam也满足了杭港地铁24小时(RPO)对数据做一次增量备份的需求,大大降低了因为IT系统中断造成的地铁车辆停靠、检修、车辆的技术改造,以及乘务人员换班等运营风险。
“值得一提的是,Veeam产品的数据恢复颗粒度能够达到文件夹和文件级别,可以针对具体的数据库、文件、邮件分别恢复,不必再做整机恢复,节省了大量数据恢复时间,有效提升了杭港地铁的运营效率。” 李添天如此介绍。“Veeam产品利用LAN-free技术,可以直接从生产存储中将数据写到备份存储中,无需占用带宽,减少了资源使用率。消除了之前数据备份过程产生的带宽资源抢夺,导致业务系统处理速度变慢的问题,提升了人员的工作效率。”
结果
保障地铁运营不间断,RTO达到30分钟内
RTO达到30分钟内,RPO为24小时,实现了数据的高可用,保障了业务的连续性。
数据可100%恢复成功,确保地铁管理网络稳定运转
确保每次都能成功备份和回复所有数据,保持地铁管理网络上业务系统的正常运转,减轻IT运维的压力。
文件级的恢复粒度,数据恢复效率大为提升
灵活的数据恢复颗粒度,可将数据精准地恢复至特定的还原点,以及具体文件,节约数据恢复时间,提高了数据恢复效率。
数据备份不占用带宽,不与业务系统争资源
Veeam产品的数据备份过程无需占用以太网带宽,减少了备份时对带宽资源的抢夺,让业务系统可以有更多的网络资源,提升了工作人员效率。
好文章,需要你的鼓励
NAVER和KAIST研究团队发现,先进AI模型在数学题自我修正方面存在严重缺陷。他们创建的MMRefine基准测试揭示,即使是GPT-4O等顶级模型也只能成功修正约23%的错误答案,而且经常将正确答案改错。研究发现不同模型在处理六种错误类型时表现差异巨大,特别是小型模型在空间推理修正上竟然超越了大型模型,颠覆了"越大越好"的认知。
牛津大学研究发现,尽管大语言模型在医学考试中表现出色,但在实际应用中效果大打折扣。研究显示,LLM直接测试时能94.9%准确识别病症,但人类使用LLM诊断时准确率仅34.5%,甚至低于不使用AI的对照组。问题源于用户提供信息不完整、LLM理解偏差等人机交互问题。专家指出,仅凭非交互式基准测试评估LLM存在误导性,需要真实的人机交互测试才能准确评估AI系统的实际性能。
上海交通大学研究团队开发出革命性AI图像检测系统,不仅能以98.1%准确率识别AI生成的假图片,更能像人类专家一样用自然语言详细解释判断依据并标出具体问题区域。该系统通过创新的多模态大语言模型训练方法,实现了从"黑盒判断"到"透明分析"的突破,为新闻、法律等领域提供可信赖的智能辅助工具。