3月19日,EMC宣布新产品和解决方案,支持数据湖基础。数据湖基础是支撑业务数据湖解决方案的存储基础设施。业务数据湖将数据、应用和分析整合到一起,同时,在任何需要的地方提供分析能力。
当EMC和客户交谈时,持续听到的是前所未有的数据增长,以及管理存储孤岛的挑战。去年,EMC分享了数据湖基础策略,并且已经提供像EMC Isilon和EMC ECS(弹性云存储)这样的产品,帮助客户消除存储竖井,为存储和管理数据提供更简便的方式。这样,客户就可以将更多精力投入到从数据中获取洞察和价值这件事上。
以下是数据湖基础可以为企业带来的好处:
新平台
2014年,EMC发布Isilon S210平台,将世界纪录的性能数字加倍。现在,EMC发布全新的Isilon HD400平台,容量增加2.5倍,允许客户将其数据湖基础史无前例地扩展至单集群50PB容量。该平台对那些需要一个强大、可扩展、可存储2PB至50PB数据的高容量平台的客户而言,是理想的选择。这种容量能力适用于深度归档、灾难恢复,以及构建一个高容量的数据湖基础。而且,HD400极致的密度(3.2PB/rack)可有效减少包括电、制冷、数据中心空间等在内的运营费用达50%。
新软件和能力
除了全新的阵列,EMC还发布了帮助客户从数据湖的数据中获取丰富洞察的新功能。全新的OneFS7.2操作系统将支持较新的、更多当前的Hadoop协议,包括HDFS2.3和HDFS2.4,更快地提供洞察。
EMC还宣布提供面向OpenStack Swift的支持,同时支持文件和对象,后者是增长速度最快的非结构化数据类型。
新解决方案
从数据湖基础的数据中实现价值的关键是利用EMC ISV伙伴提供的丰富的分析工具,例如Cloudera和Pivotal。这些合作伙伴的应用是经验证的,可运行在Isilon数据湖基础上。今天,EMC宣布与业界另一个企业Hadoop领导厂商——Hortonworks达成认证。这一认证标志着EMC Isilon OneFS系统可在最复杂的Hadoop测试套件中运行,是Isilon面向Hadoop环境系列成就的顶点。EMC还将继续与其他几个分析生态系统的伙伴紧密合作,为客户提供丰富的数据湖解决方案。
“通过经Hortonworks数据平台认证的EMC Isilon,组织现在可以利用其共享存储能力,运行全新的分析负载,从现有数据中获得更多价值。通过与Apache Amabari的工程和集成,客户现在可以部署分层,加快获得洞察,同时在Isilon上使用最彻底的经验证的Hadoop分发版。”
——Hortonworks业务开发副总裁 Mitch Ferguson
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。