文/ Veritas公司全球销售高级副总裁Mark Nutt
数据也许是点石成金的“神器”,但也是把双刃剑。
数据洞察的黄金时代正悄然到来,蕴含着无数的可能性。通过数据,零售商可以更好地预测用户的购买习惯, 并在规定时效内把商品送达指定地点;医生可以根据更详细的医疗记录,进行更为精确的诊断;卫星导航系统能帮助我们避开交通事故,让大家准时上班;娱乐软件可以预测我们的喜好,通过大数据推荐符合我们审美的音乐或电影。数据带领我们从无到有,其蓬勃发展的写照,将无数想象孕育成现实。
“水满则溢”
但是当许多企业初尝到数据的甜头时,才发现数据说到底也是把双刃剑。企业发现,只有当数据准确时才能发挥作用,如果数据缺失、损坏或不可用,整个系统就会崩溃。此外,数据管理难度和其数量成正比,数据越多意味着管理难度越高。这就像我们在手机上玩的俄罗斯方块游戏:一开始很容易,但随着方块下降的速度越来越快,数量越来越多,我们最终会慌乱而不知所措。
业务的正常运行离不开数据,但如今企业创造了太多的数据,而弥合数据威胁和数据安全间的沟壑,即使是当今世界上最优秀的数据管理团队都心有余而力不足。
对企业来说,最简单的选择是专注于那些关乎企业发展的关键数据。至于其余的数据,将他们“安置”在云存储中,并评估其重要性以方便后期处理即可。这与Veritas的一项研究结果相印证——只有16%的企业数据是“可操作”且被使用的,其余的要么是“ROT”(冗余、过时或琐碎的数据),要么是“暗数据”,存储数据的团队很可能不知道它是什么。
然而,存储这些未被使用的数据不仅会给公司带来财务压力,还会带来诸多环保问题。世界范围的存储服务会消耗大量电力,产生大量碳污染。 据Veritas 统计数据显示,仅2020 年,存储暗数据就产生了580万吨碳排放,相当于80个国家的碳足迹总和。
于此,我们该如何改变这一局面? 其实只有在面临重大调整或行动时,重新评估被“安置”数据的计划才适用。对于公司来说,要么阻止数据的流入,要么配置更多的资源来处理它们。但据 IDC 统计,现如今数据量远未减少。情况恰恰相反,分析机构预测,数据将以23%的年复合增长率持续增长。Veritas 最近的研究也强调,即使是那些最关键的行动,很多企业也缺乏 IT 专家的支持。很多企业表示,他们需要额外雇用 22 名员工才能加快数据保护速度,更不用说解决更广泛的数据管理问题了。
技术赋能
这些暗数据堆积得如此之快,以至于似乎员工得拥有“三头六臂”才能应付。但事实上,在处理暗数据方面,企业更需要诉诸拥有专业技能的团队,而非技能超群的个人。术业有专攻,人们更擅长创造力和决策,而技术则更擅长快速处理大量信息。“察势者智,驭势者赢”,充分利用人工智能(AI)和机器学习(ML)来增强现有IT团队的技能,不仅是保留良好的数据驱动决策的方式,也是减少数据存储对环境影响的有效途径。
这便是数据自治,依赖于学习数据管理实践并将其独立应用于新数据集的技术平台。这些策略曾离不开人力操作——必须有人操作系统以决定数据该存储在何处、如何使用以及最终何时删除等问题。但考虑到细节层面的逐项执行非常耗时,企业往往最终会采用更全面的数据管理方法,例如建立一个“统一的数据空间”。这就是获得未使用的,或是不能使用的数据的方法。而将这些数据一直存放在不会被访问的服务器上,可以一定程度上降低耗电速度,节省不必要的用电。
数据自治接替人力时,人工智能便可以更精细地实现主动决策和策略应用。AI可以学习不同数据类型的特性,并执行适合的意义的存储、保护或删除策略。因此,当新数据被创建时,不论是自动保护,还是安全存储、访问权限,又或是在合适的时间内进行清除,都能够得到有效执行。
减少数据负载
从可持续性的角度来看,这有助于从根本上减少存储的数据量以及与之相关的污染。企业不仅可以清除他们不需要的数据,还可以通过优化数据的储存方式来减少所需的存储空间。
举例来说,其实企业持有的大量信息都是多次重复的。以合同为例,如果我们把合同通过邮件发送给同事,那我们拥有的不仅是合同的原始文档,还会有存在于电子邮箱已发送的文件夹中的副本,而且同事的收件箱里也会有一个。同样地,如果将这封邮件抄送给法律部门、财务部门以及团队中为该帐户工作的三个同事,那么情况很可能是同一文件的八个副本,多年来都存储在公司的服务器上。
在暗数据环境中,上述提及的每一个文件都需要单独保存,因为没人知道它们是否是同一个文件。这就像八个盲盒,除非将他们全部拆开,否则我们无法获知里面的内容是否相同。但其实这个看似绕不过的难题,在拿出数据自治策略后,便能迎刃而解。数据自治可为技术赋能,进而监测整个企业的文件。具体来说,技术完成索引相同的数据后会仅取其一,以原始版本的链接取代重复的数据,为存储“减负”。
从环保角度来看,上述的“重复数据删除”功能的作用在备份数据中格外明显,其中数据自治驱动的解决方案有时能够将存储这些数据所需的电量及其带来的二氧化碳排放量减少约 95%。
从业务角度来看,网络中的数据风险可以最大限度地被规避乃至消除。那些企业没有能力解决的数据洪流是脆弱的。Veritas研究表明,疫情期间,对于那些实施数字化转型项目的企业来说,部署新的应用程序和拥有保护措施以确保其安全之间预计存在两年的滞后期。
缺乏数据保护的两年,无疑为勒索攻击以及潜在的数据违规提供了温床。好在数据自治恰能对付这些潜藏着的“灰犀牛”事件,为数据管理浇筑安全基础。
一言以蔽之,数据自治将使企业重新掌舵,牢牢把握数据的决策权,也昭示着新的数据“黄金时代”的到来。
关于Veritas
Veritas Technologies是多云数据管理领域的领导者。超过八万家企业级客户, 包括95%的全球财富100强企业,均依靠Veritas确保其数据的保护、可恢复性和合规性。Veritas在规模化的可靠性方面享有盛誉,可为企业提供抵御勒索软件等网络攻击威胁所需的弹性。Veritas通过统一的平台,支持超过800种数据源,100多种操作系统,1400多种存储设备以及60多类云平台。在云级技术的支持下,Veritas现正在实践其自治数据管理战略,在提供更大价值的同时,降低运营成本。
Veritas中国官方网站 https://www.veritas.com/zh/cn/
Veritas官方微信平台:VERITAS_CHINA(VERITAS中文社区)
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。