随着云计算的不断发展,用户的核心业务越来越依赖于IT系统。如何对关键业务数据进行持续数据保护,同时数据中心发生宕机等灾难情况,如何实现数据保护以及快速恢复的容灾方案成为用户必须关注的方向。
那么当面对IT系统不可用的情况下,你可以忍受多长时间?同时为企业带来多大损失?当系统被恢复时,你可以忍受多少数据需要重新建立?因此企业IT系统保证丢失的数据量快速恢复就是IT部门必须深化的课题。记者了解到国产厂商火星高科推出的第五代火星舱数据保护系统,针对容灾系统做的数据的即时保护。那么火星舱CDP真的能做的RPO和RTO=0吗?
首先我们先了解一下RPO与RTO的简单概念,:
RPO(恢复点目标):表示发生数据存储故障时,丢失的数据量。通常以时间为单位,也就是代表能够确保恢复到距离灾难时间点之前多长的数据状态。
RTO(恢复时间目标):恢复业务运行所需要的时间。
清楚这两个概念之后,大家知道传统的数据备份,丢失的数据无法立即恢复,需要一个过程。那么这一个过程就会产生许多不确定因素,包括系统损坏、数据丢失等问题。如果实现存储故障的即时接管,那么就会大大降低数据丢失的问题。
首先火星舱采用基于块的CDP功能,直接运行在逻辑的卷管理器上,提供了系统内核 I/O 级别的保护。当数据块写入生产数据的存储设备时,CDP系统实时捕获数据的拷贝并将其存放在另外一个存储设备中。
这样由于它的I/O级同步保护技术,确保了火星舱CDP的本地RPO可以达到“零”。这个零指的是火星舱CDP(持续数据保护)技术把用户RPO缩短至秒级甚至毫秒级,通过无限记录功能可以实现用户数据I/O级的恢复,使用户RPO接近于0。
服务器主机对生产存储的每一个写入I/O,都会被镜像代理分流写入到火星舱一份,等待两边都确认才返回OK。所以当生产存储发生故障时,火星舱可以达到完全相同的数据状态(或者最多相差一个I/O)。这可以说是最高级别的保护,真正实现了CDP“不丢数据”的承诺,并且为存储和应用的HA接管打下了基础。
而对于存储设备故障,火星舱实现了以往解决方案无法实现的目标。对于RTO,火星舱CDP技术把绝大多数故障的恢复时间都限定在分钟级别。火星舱CDP可以在Unix和Linux系统下,实现生产存储故障的即时接管,即RTO=0。
对于逻辑故障需要手动回滚恢复,Windows系统也需要手动挂载恢复。但由于火星舱内的数据格式与被保护磁盘/分区完全相同,因此不需要像传统备份冗长的恢复过程,经过几个操作在数分钟内即可恢复数据访问。整个应用在灾备启动的过程非常简单,大幅降低RTO指标。火星舱CDP技术把绝大多数故障的恢复时间都限定在分钟级别。
当存储出现故障时,CDP镜像会自动接管业务,数据库系统感觉不到中断和设备灾难,实现了RPO=0和RTO=0。当生产存储恢复时数据会在镜像阵列中自动同步。这样通过火星舱CDP可以把用户的RPO控制在毫秒级以及RTO控制在分钟级别,做的真正意义上的持续数据保护。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。