大数据策略会失败吗?是时候该讨论一下这个问题了。企业才刚刚掌握如何集成ERP(企业资源规划)及其他业务应用来消除业务流程中妨碍效率的孤岛。面向服务架构、软件即服务、云计算及其他现代化解决方案在协助企业实现大型应用集成过程中都发挥了一定的作用。但是如今,在大量数据的环境中组织正面临新的一系列挑战。更清楚地说,它不是一条数据流。它是由许多独立的数据流组成的,使数据互相分离或者就像以前的企业应用那样将孤立起来。
这不是因循守旧
这些数据中有许多都不像那些企业用处理的数据那样。在大规模结构化数据环境中,数据激增所面临的大部分挑战都可以通过扩展、冗余及分析而得到解决。大数据时代,以上这些挑战仅仅是企业必须解决的小部分问题。如今收集到的数据类型来源非常广泛。数据通过嵌入式传感器、RFID芯片、箱子和音像供给、文档和图像文件、图像等其他方式而传输到数据库中。社交媒体会改变数据应有的形象。这还不包括业务伙伴之间所共享过的大数据。
组织不再描述或者规定数据所要展现的形式。实际上,如果尝试这样做,会大大地降低数据本身的价值。企业仅能预测一定数量的潜在情节或者反应。无论他们创建了多少复选框或者数据文件,总会有数据溢出的现象。从竞争的角度来说,忽视那些非传统数据的后果是极具破坏性的。最近麦肯锡全球研究院进行了一项研究,题目为:大数据是创新、竞争、生产率领域的下一个研究方向,研究表明如果企业未能充分利用现有的数据,那么该企业将亏损数千亿美元。
关系数据库仅能提供部分解决方法
由于数据量大而且种类不同,因此采用工具和技术管理非结构化数据就变得非常困难。非关系型NoSQL、XML以及关键/数值数据存储都可以协助企业解决多数大数据的可伸缩性和可访问性问题。例如Hadoop这样的解决方案使用MapReduce及Hive Query Language,为企业提供管理大数据的一个起点,并获取商业情报。如MongoDB和Cassandra这样的NoSQL数据库管理系统已经实现Hadoop集成,使客户获得至少一个客户端接口或者覆盖连接不同的数据流变得更加容易一些。
如今数据本身在企业中变得更加灵活。并行流程及智能数据将JitterBit这样的工具分块应用,将其设计成允许数据从一个应用程序传输到下一个应用程序,并保证传输的数据质量。这种通过数据类型及应用进行的集成对于时间敏感的企业活动来说非常重要,这些活动中也会涉及即时分析。一般地,这种形式的分析必须查询当前数据和历史数据,来识别新趋势。这就是SQL经常再次发挥作用的原因。
SQL、NoSQL以及大数据技术
新型数据的来临并不是否定过去几十年精心收集并整理出来的业务数据。SQL数据存储中的内部企业数据可以解释大数据与其他数据在精确性及相关性之间的差异。多数组织发现他们仍然需要为了企业数据而保持SQL结构,来支持企业最佳业务实践。将一切数据变为非结构化格式并不是集成,这仅仅是趋同化处理。与此同时,试图迫使结构化数据向非结构化数据转变也都是白费力气的努力。
从企业角度来说,集成的目标并不是关注数据结构化而是关注组织化。像新型Oracle Data Integrator这样的工具试图通过加载和转换数据的Hadoop来寻找平衡点,所以,结合传统企业数据就更容易进行分析。分析流程中,这种方法使得来自多种信息源及存储中的数据相融合,此时就更需要数据集成。这种折中的方法使得原始数据比最初的状态更加自由,维持这种隐含价值可能更适合于未来分析的新方法。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。