大数据策略会失败吗?是时候该讨论一下这个问题了。企业才刚刚掌握如何集成ERP(企业资源规划)及其他业务应用来消除业务流程中妨碍效率的孤岛。面向服务架构、软件即服务、云计算及其他现代化解决方案在协助企业实现大型应用集成过程中都发挥了一定的作用。但是如今,在大量数据的环境中组织正面临新的一系列挑战。更清楚地说,它不是一条数据流。它是由许多独立的数据流组成的,使数据互相分离或者就像以前的企业应用那样将孤立起来。
这不是因循守旧
这些数据中有许多都不像那些企业用处理的数据那样。在大规模结构化数据环境中,数据激增所面临的大部分挑战都可以通过扩展、冗余及分析而得到解决。大数据时代,以上这些挑战仅仅是企业必须解决的小部分问题。如今收集到的数据类型来源非常广泛。数据通过嵌入式传感器、RFID芯片、箱子和音像供给、文档和图像文件、图像等其他方式而传输到数据库中。社交媒体会改变数据应有的形象。这还不包括业务伙伴之间所共享过的大数据。
组织不再描述或者规定数据所要展现的形式。实际上,如果尝试这样做,会大大地降低数据本身的价值。企业仅能预测一定数量的潜在情节或者反应。无论他们创建了多少复选框或者数据文件,总会有数据溢出的现象。从竞争的角度来说,忽视那些非传统数据的后果是极具破坏性的。最近麦肯锡全球研究院进行了一项研究,题目为:大数据是创新、竞争、生产率领域的下一个研究方向,研究表明如果企业未能充分利用现有的数据,那么该企业将亏损数千亿美元。
关系数据库仅能提供部分解决方法
由于数据量大而且种类不同,因此采用工具和技术管理非结构化数据就变得非常困难。非关系型NoSQL、XML以及关键/数值数据存储都可以协助企业解决多数大数据的可伸缩性和可访问性问题。例如Hadoop这样的解决方案使用MapReduce及Hive Query Language,为企业提供管理大数据的一个起点,并获取商业情报。如MongoDB和Cassandra这样的NoSQL数据库管理系统已经实现Hadoop集成,使客户获得至少一个客户端接口或者覆盖连接不同的数据流变得更加容易一些。
如今数据本身在企业中变得更加灵活。并行流程及智能数据将JitterBit这样的工具分块应用,将其设计成允许数据从一个应用程序传输到下一个应用程序,并保证传输的数据质量。这种通过数据类型及应用进行的集成对于时间敏感的企业活动来说非常重要,这些活动中也会涉及即时分析。一般地,这种形式的分析必须查询当前数据和历史数据,来识别新趋势。这就是SQL经常再次发挥作用的原因。
SQL、NoSQL以及大数据技术
新型数据的来临并不是否定过去几十年精心收集并整理出来的业务数据。SQL数据存储中的内部企业数据可以解释大数据与其他数据在精确性及相关性之间的差异。多数组织发现他们仍然需要为了企业数据而保持SQL结构,来支持企业最佳业务实践。将一切数据变为非结构化格式并不是集成,这仅仅是趋同化处理。与此同时,试图迫使结构化数据向非结构化数据转变也都是白费力气的努力。
从企业角度来说,集成的目标并不是关注数据结构化而是关注组织化。像新型Oracle Data Integrator这样的工具试图通过加载和转换数据的Hadoop来寻找平衡点,所以,结合传统企业数据就更容易进行分析。分析流程中,这种方法使得来自多种信息源及存储中的数据相融合,此时就更需要数据集成。这种折中的方法使得原始数据比最初的状态更加自由,维持这种隐含价值可能更适合于未来分析的新方法。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。