中国企业数字化转型进入深水区,数据成为数字化基础架构的核心,企业不做好基础的数据管理如何实现成功的数字化转型?
10月14-15日,2021年第六届IDC中国数字化转型年度盛典在上海举行,在此次盛典的“未来数字基础架构”分论坛,云信达科技创始人&CEO张兵先生发表了“Copy & Connect:拷贝联接世界 ”的主题演讲。
从“备份革命”到云数据管理
数字化转型的根本是数据驱动,数据的源头来自各业务生产系统,脱离生产环境的第一拷贝(first copy)就是“数据备份”,从数据产生的源头记录数据在时间维度上产生和变化的状态,一直以来被认为是数据保护的最后一道防线。但很长时间以来,很多企业把备份数据仅用作数据灾难的恢复,从马斯洛需求层次论来看位于金字塔的“安全需求”,其存在仅仅是为了满足低层次的需求。
张兵坦言,目前数据管理的实际情况往往是管理数据的看不见数据(数据管理部),看得见数据的没有处置权限(运行维护),需要用数据的在等数据(业务开发)。
这导致数据中心运维、数据资产管理、数据驱动业务三方面无法很好地达成协同和管控,严重影响了数据协作效率。
另外,很多企业采取了不合理的数据治理方式。大数据常用数据技术MapReduce运行于Hadoop之上,各种多维立方体查询报表工具需要数据仓库的支持,各种XX画像需要数据中台的支持。人们殚精竭虑加工数据(清洗)以迎合各种分析工具的要求。这是不是因果倒置呢?
无论是从长远发展还是从合规的角度,更合理的方法是采用“拷贝”数据构建数据基础设施,通过拷贝数据实现数据保护、数据管理、数据服务,实现其真正的价值。
这也是CDM——备份数据管理技术的精髓所在:通过CDM构建现代化数据管理底座,实现数据资产全生命周期管理,以拷贝作为数据的共性连接企业稳、敏双态IT各能力域,提升企业数据连接应用的体验,加速企业数字化转型。
拷贝联接世界:打造未来数字基础架构
成立于2015年的云信达科技,致力于通过创新型CDM技术帮助企业客户以备份现代化为起点,盘活备份暗数据。为了让散落在企业各个角落的拷贝(副本)数据适应数字化转型发展需要,云信达创新性地提出了“Copy as a Service拷贝即服务”云原生数据管理解决方案和“Copy Operating System拷贝操作系统”的新理念。
一方面,通过Copy as a Service让企业数据战略和云战略形成更好的融合,助力金融等众多行业客户真正实现从传统备份到云时代数据管理的跨越,另一方面,通过Copy Operating System提升企业数据联接应用的体验,加速其数字化转型。
基于数据管理领域积累的多年经验,张兵认为,原格式+云原生是数据备份技术的必然走向,未来谁沿着这条路线走得更快,谁就将更有机会打造自己独特的核心竞争力。
“Copy as a Service拷贝即服务”解决方案中,以拷贝(副本)数据为连接标准,可建立一个协作平台,打通组织内部的数据资产管理和敏捷数据服务,更好的赋能数字业务。在稳态系统通过数据保护得到全生命周期的原始数据资产,呈现给数据管理部门方便进行可视化管控,业务开发部门可以从平台上合规地、敏捷地取得数据,使用数据。
这其中,因再存储限制了备份系统的嬗变,改备份集为原生格式拷贝才能省略掉再存储过程,就可通过底层技术原理的革新提高数据恢复的效率,通畅数据“再使用”的路径,从而实现备完即可见、备完即可用的目的。可见则可管理,可用则可服务。
如果说“原格式”和“黄金副本”的出现是备份革命,那还只是停留在数据保护基础设施的范畴。数据的可见可用是通过虚拟化的方式(Virtual Copy)呈现,拷贝(副本)可以被无限虚拟,生成N个副本挂载(live mount)给不同的应用场景。
而云计算环境的普及,又可以对虚拟副本进行自动化的管理和编排,以服务的形式连接并赋能应用。
对IT元素进行虚拟化处理变成一种服务是云计算的基本特征,于是,CDM也从数据保护基础设施演变为云数据基础设施,从单纯的运维工具演变为业务平台,从信息化基础设施演变为数字化基础设施。
Copy Operating System拷贝操作系统的重要性在于,除了存储基础的基础设施,企业更需要一个软件操作系统把各种结构化、非结构化、半结构化的数据快速拷贝和连接各Pass,目的是让数据的管理和使用像智能手机一样的简单易操作。
最终,通过完善的数据保护、数据管理、数据服务,实现三位一体的企业数据管理战略。
这也正是云信达改变未来企业数据管理的方式所在:通过CDM提升企业数据联接应用的体验,加速企业数字化转型。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。