在当今的大数据时代,数据成为企业重要资产。数据作为大数据时代新的生产要素,像石油一样属于国家和企业的重要资源,对关键信息系统和数据进行保护,是当前数字经济发展和数字化转型的保障。
如何指导企业对关键信息系统和数据的保护?
近日,由灾备技术产业联盟发布的《2021中国灾备行业白皮书》对灾备行业的相关标准、技术、产品和方案等内容进行全方位的介绍,整体反映出社会各界对数据安全的关注。最新国家标准《信息安全技术 数据备份与恢复产品技术要求与测试评价方法》(GB/T 29765-2021)也已获批发布,并将于2022年5月1日正式实施。标准明确数据备份与恢复产品安全功能要求、自身安全要求、安全保障要求和测试评价方法。
新标准除聚焦和完善主流备份技术及产品的相关要求和测评办法外,增加若干项“有则适用”的新兴应用技术和场景,如副本数据管理(CDM)、持续数据保护(CDP)和云环境适应性等,以适应当前备份业务的快速发展。
那CDM、CDP是什么,与主流备份技术有什么区别呢?为何当前金融行业会拒绝CDP?在新标准推出后,企业应如何运用新应用技术增加自身的数据保护能力?
CDM,CDP为主流备份技术的“有则适用”补充
我们将以数据保护、使用的角度,对当前的数据备份技术进行对比和探讨。
主流备份技术
备份是通过数据提供多副本冗余,当数据发生误操作、病毒感染和丢失等逻辑错误后,可以用备份副本进行恢复,保证数据少丢失的数据备份技术。因备份业务优先级问题,当前主流备份技术专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对生产系统的影响等问题。
图1-主流备份逻辑示意图
持续数据保护CDP(Continuous Data Protection)
CDP技术即为解决主流备份解决方案专注在数据周期性备份而导致的数据不一致和因备份窗口导致数据丢失恢复的场景。CDP和主流备份技术的最大差别,在于大大提高了数据恢复时间点目标(RPO),可以实现对“任意时间点”的数据保护和恢复。
图2-CDP备份逻辑示意图
在重要数据备份场景,CDP技术能给客户带来较为明显的价值,可以保证重要业务数据能恢复到此前任意时间点。但由于CDP是基于主机层、传输层、存储层等对IO变化获取副本数据的技术,在核心业务应用场景,尤其是金融行业的内存数据库场景下,CDP则无法带来显著效果,甚至还会引入一些负面效果,如数据不一致问题,核心业务主机瘫痪等严重问题。
故目前大部分金融机构是明确拒绝使用CDP技术,究其原因,如要有以下几点:
在数据安全性上,因CDP获取数据并不是通过应用的备份接口,故CDP会存在小概率的数据不一致问题,如内存型数据库MongDB的备份场景。另外,因CDP内核态可靠性风险,极端情况会导致生产主机瘫痪,对于系统连续性要求较高的业务存在系统级风险。
在资源消耗上,因CDP是持续的对磁盘扇区数据的变化进行监控,相对主流备份和CDM,其消耗的资源占用较高。
在数据恢复上,CDP和CDM备份的数据格式与原数据格式一致,故在备份数据恢复和有效利用方面相对主流备份更加便捷。但CDP只管对数据持续不断的备份,在数据恢复和管理上却相对CDM落后许多。
数据副本管理CDM(Copy Data Management)
无论是主流备份技术,还是CDP技术,其出发点均为最基本的数据安全可靠诉求。通过利用记录基准数据和增量数据日志,对日志做索引处理的方式,能够让用户在较短时间内看到历史的任意副本。然而,至于这些数据如何被利用,长期以来却似乎并没有受到重视。
CDM技术出发点在于它并不关心或是弱化关心数据是怎么拿到,比如是通过主流备份技术亦或是CDP,也不关心数据放在哪里,比如是本地硬盘、SAN、分布式、云存储等。它更注重的是如何将获取到的数据更好的管理和利用,以及更好的与应用相结合的利用。
CDM可以简单的等于“数据管理”和“数据保护”的有机结合。
CDM通过快照技术获取有应用一致性保证的数据,在不中断业务访问的前提下分离出在线数据,将查询、测试、分析等流量转移到非生产系统,解决了CDP技术依赖监控实时IO变化带来的主机消耗问题,同时也解决了一些新型应用场景数据不一致性的问题,如内存型数据库MongDB。同时,CDM获得的数据副本即时可用,分离出的数据通过数据重组和应用模式匹配以及数据清洗,快速为业务提供数据支撑。
CDM还做到了更多的数据管理功能,通过自动化的流程管理,简化副本数据的管理复杂度,提升数据管理效率,结合日志处理技术,提升数据的实时性,可以快速处理量更大、更多样化的数据。
图3-CDM备份逻辑示意图
如何运用新技术加强数据保护?
对于企业80%的业务数据,基于长期数据留存考虑,当前主流备份技术仍然适用,为相对成熟、性价比较高的备份技术。
而另外20%的业务数据,可根据数据特征,有条件的选择本次标准新增的“有则适用”之CDM或CDP备份技术,提供更加可靠、完善的数据保护和管理方案。
图4-企业业务备份场景分类
数据保护关键不在技术,而是意识!
据相关数据统计,相对发达国家数据保护投资占主存储投资的比例,我国的投资占比还不到1/4。在金融行业,生产数据被保护的比例仅为15%,政府行业数据被保护的比例还不到10%。随着我国2025年即将成为全球最大数据圈,70%的生产数据需要被保护。
加强数据保护时不我待!
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。