有一种说法,人类只要利用大脑的10%,就可以实现长生不老。即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘。同样,在数据科学领域,许多企业仅利用了数据的一小部分,有些宝贵数据却被放在数据孤岛中,无法有效利用。
行业研究显示,全球每天创造2.5个五万亿字节的数据,而在过去的两年中,这些数据中的90%来自于每天从众多不同渠道产生的数据。换句话说,这相当于 575 亿台32 GB内存的iPhone手机总存储量。毫无疑问,这确实是海量数据,但是其中大部分数据处于黑暗状态。
Gartner对暗数据(Dark data)的定义是, "企业在开展正常业务活动期间采集、处理和存储,但通常无法用于其它目的(如分析、商业关系和直接获利)的信息。" 从本质上讲,这些数据是企业指定用来进行相应的存储、保护和管理的内容,而非用于提高整体工作效率或生产率。这些数据中包含重要内容,如果未能正确存储,可能会为企业带来风险。
企业数据保护及信息管理全球领导者Commvault结合多年的行业经验,帮助企业点亮"暗数据",释放更大商业价值。
据合规、治理和监管部门的法律顾问预计,公司存储数据的 69% 对该企业毫无价值。这就引出了一个问题"我们为什么要保留这些数据?"
为何要保留这些数据?
我们现在不再是处理少量的MB级或GB级的业务数据,这意味着数据管理的"保留全部信息"原则将不再可行。因此,管理庞大的数据量对当今的企业来说至关重要。然而,这并不像说的那样简单。为了改进流程,基础架构管理者/管理员需要采用基于内容的保留策略,使其仅保留最重要的相关数据以便于访问。这些策略还要考虑最新的政府立法,从而确保整个企业实现最佳实践。
那么其他数据呢?企业的其他数据必须采取高效的归档方式,以保证系统平稳运行。企业对各种技术,如使用文件名、类型、用户/群、关键字、Exchange分类、标签等用户自定义策略需求日益增长。通过采用这些方法,企业在归档流程中可增加前所未有的智能处理层级,从而提高效率并保证整体数据的安全性。
你知道何时"删除"数据吗?
虽然有效的数据管理模式始终是企业的首要之选,但我们仍不能忽视数据增长的事实。事实上,没有人能够负担起大量无用的存储内容。因此,我们必须对数据从生成到处理的整个生命周期进行评估。有一种不切实际的想法--保留每个数据为未来的商业决策献计献策。但实际上,企业必须认真考虑其数据的最终目标或目的,并制定数据删除的治理策略。通过削减数据,企业将减少其暗数据并提高未来分析的透明度。更为重要的是,删除无用数据可以提高系统性能,有助于显著提高系统整体的可靠性。
虽然数据删除貌似很费时,但它未必需要手动来完成。基础设施管理人员有权对信息使用分类、整理、保留和删除的自动化策略,从而优化整个信息管理生命周期。除了减少手动删除数据的工作外,数据自动化处理技术还帮助企业更好地面对合规审计和诉讼,使之成为当今各种企业的必备"利器"。
数据是每个企业的命脉,因此,对数据进行有效管理对企业来说至关重要。与此同时,数据量和数据源的日益增长,使数据管理业务变得更为复杂。但是,任何公司都不需要在不知所措的"黑暗"中开展工作。事实上,基础设施管理与其流程及系统的管理一样简单。随着数据的不断增长,必须向基础设施管理人员提供相应的工具,帮助其筛选数据,从而有效管理、保护和利用数据。自动化流程将成为提供高水平数据管控的关键,并最终有助于推动企业智能、高效发展,同时改善合规性,并降低数据丢失和管理不当所带来的风险。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。