随着"互联网+"与产业融合的深入,越来越多企业把应用、数据、系统进行集中处理,数据大集中的同时更面临极大数据安全风险,企业对业务连续性的需求越来越迫切,数据库、虚拟化及其它重要业务系统环境均以集群和HA方式提供了业务连续性保障;而集群或HA所依赖的共享存储系统成为IT架构中的最后一个单点故障。
3电,口
1、客户"特烦恼":数据灾难如何恢复?
突发事件造成的非计划宕机的事件不可避免,尤其是企业集中化管理的数据中心,如下图是Business Continuity QuickPoll的大数据分析结果,对各种行业及突发事件发生后所花的时间进行详细分析得出的结论。

由上图可以看出,非计划宕机时间在10小时以内的用户约为71%,其它用户宕机恢复时间则要达到10小时以上,甚至部分用户的数据是不能被恢复的。非计划宕机的恢复时间直接影响着企业的隐形成本,宕机时间越长则隐形成本越高;过长的非计划宕机恢复时间对于企业是致命的。
灾难突发时如何保障企业核心业务7*24小时业务连续性,如何在IT层面保护社会效益和经济效益,核心还是在于共享存储数据安全。当前,保障数据安全的先进手段,莫过于双活数据中心的搭建。
2、浪潮:数据是命脉,必须要"双生"

采用存储双活技术
该方案采用完全独立的两套磁盘阵列实时存储双份数据,解决了整个系统的单点数据故障问题,每台阵列上都采用安全性较高的RAID格式来保护数据,同时把数据和服务器也进行了分离,使数据存储的速度相比传统方式有较大提高,并且便于存储系统的升级扩容,支持不同接口的存储。
2.1浪潮双活网关AS-V架构
AS-V双活网关可以灵活扩展,支持最多8个节点的集群架构,可以实现节点简单快捷的无缝添加。AS-V每个节点都具有独立的CPU、缓存,随着AS-V节点的增加,存储系统的性能可以实现线性提升;浪潮双活网关IO Group组网方式是基于虚拟化存储平台之上的Active-Active数据中心的存储双活解决方案,为上层应用提供存储A-A双活或高可用架构,确保存储层的任一组件故障不会对上层应用产生中断影响。
在数据写入到AS-V网关完成缓存数据镜像时即反馈主机数据写入完成,这与数据写入磁盘阵列的方式完全相同;后续的整合后数据落盘则可以通过磁盘阵列固有的高速缓存实现数据的快速写入,从而实现AS-V网关性能与后端磁盘阵列性能的联动,实现数据的快速写入。

以上可见,应用的写入IO速度是最影响应用响应速度的环节,而在写数据环节,AS-V特有的缓存数据处理方式确保了整体存储系统的写入性能,减少了数据写入对后端存储性能的极大损耗。
2.2浪潮双活存储AS5600架构
数据流向如上图所示,生产主机读写生产存储,生产存储通过同步复制功能将写入的新数据同步复制到备用存储,备用存储写完成后反馈生产存储,再反馈主机写完成。此时生产主机到备用存储的FC链路处于link down状态,standby。当触发手动或自动切换时,生产主机到生产存储的FC链路变化为link down状态,生产主机到备用存储的FC链路变化为link up状态,此时生产主机开始读写备用存储。

AS5600特性基于两套存储阵列实现AA(Active-Active)双活,两端阵列的双活LUN数据实时同步,且双端能够同时处理应用服务器的I/O读写请求,面向应用服务器提供无差异的AA并行访问能力。当任何一台磁盘阵列故障时,业务自动无缝切换到对端存储访问,业务访问不中断。
3、存储双活解决方案优势
传统的主-备方式的容灾解决方案,通常RTO指标会大于10分钟,出现事故时要人工进行切换,技术人员要承担大量的脚本维护工作,而且容灾中心的资源利用率较低。浪潮存储双活架构则不同,可实现零停机业务迁移、零RPO、零数据风险,RTO通常会小于1分钟,出现故障时可以实现自动切换,容灾系统也处于始终可用的状态,两个数据中心的资源可以得到充分利用,实现双活数据中心的"零"切换"零"丢失。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。