HPE公司表示,其Zerto数据保护功能可实时检测针对各种数据类型的勒索软件加密,并将数据恢复至攻击前的状态。
此次最新发布的Zerto 10采用香农熵检测器,HPE高级杰出技术专家Dimitris Krekoukias还在博文中专门介绍了其具体细节(https://recoverymonkey.org/2023/07/25/hpe-ransomware-detection-and-recovery-in-zerto-10-sophistication-that-works/)。他写道,“现代勒索软件检测机制,需要能够动态区分合法的主机活动和现代勒索软件,而不再像过去那样单纯依赖固定阈值或者数据类型假设。”
HPE的Zerto可提供持续的数据保护与灾难恢复功能。Zerto产品副总裁Deepak Verma在宣传视频中介绍称,“我们在Zero 10中嵌入了新的检测器,这是一组以数据块层面检测加密的算法。因此无论您使用什么样的操作系统,它都能以分批形式检测出单一数据块是否已被加密。”
Zerto 10发布视频中的截图,Deepak Verma谈实时勒索软件加密检测
Zerto的虚拟复制设备(VRA)在主机服务器中运行时,会复制正被迁往存储的写入数据,并将其复制到目标HPE/Zerto系统。复制的数据会在生产数据流之外接受分析,从而避免产生延迟。Zerto将在VRA复制目标层级上嵌入内联勒索软件检测器,用于分析复制的数据块。
但Krekoukias也提到,由于IT系统也涉及对数据进行合法加密、且需要保护的数据类型多种多样,所以准确识别由勒索软件引发的加密往往颇具挑战。传统的勒索软件检测方法,往往会在一组数据块内搜索高香农熵水平,意外变化则表明存在异常活动。但由于该方法依赖于固定阈值,因此存在一定局限性。
Zerto复制目标示意图
根据Krekoukias的解释,固定阈值之所以可能引发问题,是因为最合理的评判值往往会因数据类型、数据压缩和是否使用Base64等数据编码方法而有所不同。这些都可能导致加密数据的熵偏低,从而阻碍固定阈值检测系统的有效性。
相比之下,Zerto 10的检测器则凭借其动态数据类型感知而能产生更准确的结果。Krekoukias写道,“为了进一步提高准确性,该解决方案还会进行自我训练。该训练会流式自动完成,可有效提升准确度。”
一旦检测到勒索软件加密,就可以停止加密过程并恢复受影响的数据,直至检测确认勒索软件攻击中止。Krekoukias指出,“这有助于识别出哪些服务器/文件首先开始被加密,之后将其回滚到勒索软件开始加密之前、最后一次已知写入操作之后的状态。这样就能让企业以最佳方式实现对数据的恢复和隔离,并把成本投入、风险和破坏程度控制在最低。”
他告诉我们,“这项功能可与Zerto支持的任何对象配合使用——包括各种虚拟机管理程序、容器以及云服务环境。”但Acropolis不在其中,Krekoukias认为该平台对这方面功能需求不高。
IBM也在其Storage Virtualize勒索软件检测工具当中,使用了香农熵方法。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。