2020年2月10日,北京——Hitachi Vantara日前宣布其计划收购Waterline Data公司的业务。
Waterline Data是一家提供面向DataOps的智能化数据目录解决方案的创新公司,帮助客户更快地从大型数据集中获得有效分析,并满足《通用数据保护条例》(GDPR)等数据法规的合规性要求。
Waterline Data提供基于机器学习(Machine Learnig)的数据目录技术,可实现对元数据的自动化发现,以应对从边缘到核心再到云环境的现代数据分析和治理挑战。
Waterline Data的技术目前已在金融服务、医疗健康和制药行业等客户群中得到广泛采纳,用于支持其数据科学和数据分析项目,精准定位对合规需求敏感度较高的数据,并提高数据治理水平。同时,其技术可应用在本地或云端,支持Hadoop、SQL、Amazon Web Services(AWS)、Microsoft Azure和Google Cloud等数据平台。
Waterline Data拥有“指纹(fingerprinting)”标识技术的专利是其解决方案的基石。该指纹标识技术使用基于AI和规则的系统,可自动地发现、分类并分析分散的各类数据资产,从基于数据的共同特征来准确、高效地标记大量数据。
例如,为了正确快速地在PB级数据湖中标识“保险索赔编号”,Waterline Data仅需要将一个字段标记为索赔编号,该技术随即会生成一个独特的“指纹”,并以极高的准确度将整个数据湖内外所有类似字段识别并标记为“保险索赔编号”(不受文件格式、字段名称或数据源限制)。因此,Waterline Data的技术可以帮助用户更加轻松地从数据中发现有价值的洞察。
将Waterline Data的技术与Hitachi Vantara的Lumada Data Services产品组合集成,可提供一个通用的元数据管理框架,帮助客户消除分布在云、数据中心、以及其公司网络边缘的机器和设备上的数据孤岛。通过将DataOps方法论应用于其统一的数据集,客户可更快地获得洞察并推动创新。
451 Research研究副总裁Matt Aslett表示:“我们的研究显示,接近一半的企业数据相关从业人员,他们仅花费在分析数据的查找和准备工作上的时间,就超过了总工作时间的50%。近年来,数据目录技术已经成为企业应对这一挑战并同时提高数据治理水平的战略要务。此次收购行为不仅明智,更具有战略意义——Waterline Data的技术能力是对Hitachi Vantara及其Lumada Data Services产品组合的有力补充。通过收购Waterline Data,Hitachi Vantara将进一步提升其满足客户日益增长的产品和服务需求的实力,通过DataOps为客户提供更加敏捷、自动化水平更高的数据管理方案。得益于此,企业级数据用户将以更加流畅且易于管理的方式,充分利用信息的巨大价值。”
Hitachi Vantara数字解决方案总裁Brad Surak表示:“Hitachi Vantara不断助力客户,为客户提供数据模块化平台(digital building blocks)、DataOps方法和行业解决方案,通过帮助客户获得由数据驱动的洞察,满足其企业转型需求。Waterline Data技术是对Hitachi Vantara的DataOps专长的补充,同时也将成为Lumada Data Services产品组合中的关键产品,为客户企业带来更高的可视性和更严格的质量控制,并提高其数据的合规性和管理水平。”
此次收购交易的财务条款并未对外披露。对Waterline Data的收购将会满足惯例成交条件,预计将于Hitachi集团2019财年第四季度(至2020年3月31日截止)完成。
产品可用性
收购完成后,Waterline Data技术将由Hitachi Vantara作为独立解决方案,并同时作为Lumada Data Services产品组合的集成组件提供。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。