对于数据保护服务商来说,如今的数据丢失与勒索攻击恢复业务无疑成了一份天降大礼。
相较于一年之前,如今客户需要保护的数据更多,针对数据实施的威胁行为也更频繁,这一切都为供应商们创造了积极的市场条件。2023年数据保护领域的主导领域就是建立网络弹性,将备份范围扩展到SaaS应用,同时寻求新的归档技术来修复传统磁带的固有局限。
现如今,几乎每家备份供应商都开始提供安全功能,用以防止勒索软件和其他针对数据的恶意软件攻击。而网络弹性则是备份业务的重中之重,甚至弹性这个字眼本身呈现出被过度滥用的嫌疑。例如:
· Veeam在宣传中将弹性称为最高追求。
· Cohesity表示“保护只是一环,而弹性就是一切。”
· Commvault声称“将为您提供非对称优势,确保在当下及未来的混合场景时,拥有从容应对勒索软件和其他高级威胁的强大恢复能力。”
· Druva强调自己是“业界领先的数据弹性SaaS平台,也是唯一一家能够在各类常见数据风险之下提供数据保护和千万美元担保的供应商。”
· Rubrik在官方网站上承诺“Rubrik安全云提供完整的网络弹性。”
· Veritas也在网站上写道,“我们在大规模可靠性方面享有盛誉,能够为我们的客户提供抵御勒索软件等网络威胁所必需的弹性。”
为了维持受保护数据的良好弹性,供应商现在大多提供不可变备份与备份运行状况检查,例如保证客户能够随时获取已知安全的文件。业务重点也开始从勒索软件预防扩展到勒索软件攻击恢复,且高度强调此类恢复的可靠性。
但纵观整个2023年,还没有哪家供应商推出能够反制恶意软件攻击的神奇“银弹”——这也正常,毕竟这样的技术“银弹”在逻辑上压根不可能存在。
以HYCU为首的SaaS应用保护服务商也在技术方面进一步加紧投入。他们意识到不少SaaS应用中存储的客户数据无法享受供应商自身、或者专注于保护顶层应用(例如Salesforce及Microsoft 365)的数据保护厂商的关照。HYCU的老板Simon Taylor甚至专门写书来论证这个问题。
为此,HYCU决定向SaaS开发者们提供其API,以帮助用户将自己的应用接入HYCU备份。之后,SaaS客户可以使用连接器让HYCU保护自己的数据。HYCU还启动一项计划,宣称在2023年底交付100个连接器选项。截至去年11月,已经有50个连接器准备就绪,而目前的连接器数量已经如约达到100个。
其他数据保护供应商同样将目光投向SaaS领域。Asigra就推出了自己的SaaS应用开发者SDK,Rubrik和初创公司Alcion同样不甘落后。
Veeam为此专门投资了Alcion,还购买了澳大利亚供应商CT4推出的Cirrus备份即服务软件来保护Microsoft 365和Azure云。
2023年内数据保护领域可谓好消息不断。备份目标设备供应商ExaGrid连续四个季度迎来收入与客户双重增长,季度收入更是创下历史新高。
备份与云存储服务商Backblaze突破了1000万美元的年收入大关,同时与HYCU合作开发出低成本备份数据仓库。Veeam也继续稳步发展、保持增长。
但这一年中没有数据保护厂商上市的新闻。Cohesity、Rubrik、Veeam以及Druva都是潜在的上市种子选手。其中Veeam由Insight Partners持有,该公司于2020年1月以50亿美元将Veeam收入囊中。而且自1994年以来,Insight Partners投资组合中的厂商已经成功进行过55次IPO,所以Veeam从概率上来讲未来可期。
Rubrik在这一年中筹集了5.52亿美元资金,Druva筹集到4.75亿美元,Cohesity则筹集到6.6亿美元。这些都属于风险投资,支持者当然希望各厂商最终能够成功公开上市。
Rubrik于2023年收购了总部位于以色列特拉维夫的Laminar及其安全态势管理软件。该公司还推出一款名为Ruby的生成式AI聊天机器人。竞争对手Druva方面则有Dru聊天机器人,Commvault有Arlie,Cohesity则是Turing AI/机器学习网关。Cohesity还选择与OpenAI合作。这些更加智能的聊天机器人有助于简化数据保护管理,并发现客户数据保护体系中的缺陷和软肋。
大多数数据保护技术都集中在归档领域,其中几种极端持久技术受到市场青睐,包括玻璃存储(Cerabyte和微软的Silica项目)、Arch Mission Foundation的镍纳米胶片、IBM的50 TB磁带存储以及Disk Archive Corp的spun-down停转磁盘方案。前两家的玻璃板存储技术尚未推出实际产品,推测距离商业化还有至少一年时间。但其出现至少代表着磁带存储的潜在替代技术已经存在。镍纳米胶片同样没有跨出商业化的一步,但其支持者对此充满信心,认为该技术足以实现“永久存储人类数据”的宏伟梦想。未来相应的归档设备将可存放在太阳系外围,也能将暂时用不到的业务数据记录安全存放20到30年。
尾注
IBM的50 TB磁带间接证明近期LTO技术路线图的有效性。这份路线图计划在未来一到两年内推出LTO-10格式,其初始容量为36 TB,压缩后存储容量可达90 TB。下一版本的LTO-11磁带将拥有72 TB的初始容量和180 TB的压缩后容量,不过IBM还未最终攻克所有技术难题。顺带一提,LTO-9支持18 TB初始容量和45 TB的压缩后存储容量。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。