在2014年年中,有两位Gartner分析师曾经对数据湖概念日益加剧的炒作提出了批评。
"数据湖的根本问题是,它对信息的使用者做出了某些假设,"Gartner研究总监Nick Heudecker表示。
"它假设用户意识到或者了解获取数据的背景偏见,他们知道如何在没有先验知识的情况下整合并协调不同数据来源,他们知道数据集不完整的特性,不管数据结构是如何的。"
一年半之后,Garnter的担忧似乎并没有得到缓解。虽然有成功的项目,但也有失败的--关键成功因素似乎是对数据湖和数据仓库不同角色的深入理解。
Heudecker表示,数据湖通常被当作解决大数据挑战的一种方法,是提出数据新问题的好地方,"只要你有能力"。
"如果这是你想要做的,我就不那么关心数据湖的实施。不过,风险较高的情况是,如果你的目的是要在数据湖上重新实现数据仓库的服务水平协议(SLA)。"
Heudecker表示,数据湖通常是针对不同使用实例、并发性和多租户进行优化的。
"换言之,不要针对数据仓库使用数据湖。"
他说,两者都需要,这是完全合理的,因为两者都是还针对不同SLA、用户和技能进行优化的。
广义上说,数据湖是企业级平台,用于分析各种数据来源的原生数据格式,避免数据接受的成本和数据转换复杂性。因此这里所面临的挑战是:数据湖缺乏语意一致性和受监管的元数据,这需要有技能的用户承担大量分析的责任。
Heudecker表示,在理解方面逐渐成熟,但是数据湖的炒作依然猖獗。
该技术的成熟是很难做到的,因为实施数据湖的技术选择仍然在快速变化中。
"例如,Spark是一个流行的数据处理框架,平均每43天就会做一些新的发布,"Heudecker表示。
他说,数据湖项目的成功因素要归结于元数据管理、对技能的掌握、以及强制实施监管。
"我和很多构建数据湖的公司交流过,他们把很多数据放到数据湖里面,但没有发现任何结果。其他人不知道哪些数据集是不准确的,那些是高质量的。与IT的其他东西一样,是没有一个一劳永逸的方法的。"
数据湖是一个架构理念,而不是一个具体的实施方式,他说。
"与任何新理念、新技术一样,在成为一项人们理解的实践之前往往伴随着炒作,在这之后就是幻灭。"
"数据湖仍将反映的是使用它的数据科学家。"
"这个技术可能会改变和改善,也许会利用像GPU或者FPGA这样的东西,但总体目标是发现数据新的用途和新的机会,有可能会将这些洞察带入到生产中。"
好文章,需要你的鼓励
最新数据显示,Windows 11市场份额已达50.24%,首次超越Windows 10的46.84%。这一转变主要源于Windows 10即将于2025年10月14日结束支持,企业用户加速迁移。一年前Windows 10份额还高达66.04%,而Windows 11仅为29.75%。企业多采用分批迁移策略,部分选择付费延长支持或转向Windows 365。硬件销售受限,AI PC等高端产品销量平平,市场份额提升更多来自系统升级而非新设备采购。
清华大学团队开发出LangScene-X系统,仅需两张照片就能重建完整的3D语言场景。该系统通过TriMap视频扩散模型生成RGB图像、法线图和语义图,配合语言量化压缩器实现高效特征处理,最终构建可进行自然语言查询的三维空间。实验显示其准确率比现有方法提高10-30%,为VR/AR、机器人导航、智能搜索等应用提供了新的技术路径。
新一代液态基础模型突破传统变换器架构,能耗降低10-20倍,可直接在手机等边缘设备运行。该技术基于线虫大脑结构开发,支持离线运行,无需云服务和数据中心基础设施。在性能基准测试中已超越同等规模的Meta Llama和微软Phi模型,为企业级应用和边缘计算提供低成本、高性能解决方案,在隐私保护、安全性和低延迟方面具有显著优势。
IntelliGen AI推出IntFold可控蛋白质结构预测模型,不仅达到AlphaFold 3同等精度,更具备独特的"可控性"特征。该系统能根据需求定制预测特定蛋白质状态,在药物结合亲和力预测等关键应用中表现突出。通过模块化适配器设计,IntFold可高效适应不同任务而无需重新训练,为精准医学和药物发现开辟了新路径。