大数据策略会失败吗?是时候该讨论一下这个问题了。企业才刚刚掌握如何集成ERP(企业资源规划)及其他业务应用来消除业务流程中妨碍效率的孤岛。面向服务架构、软件即服务、云计算及其他现代化解决方案在协助企业实现大型应用集成过程中都发挥了一定的作用。但是如今,在大量数据的环境中组织正面临新的一系列挑战。更清楚地说,它不是一条数据流。它是由许多独立的数据流组成的,使数据互相分离或者就像以前的企业应用那样将孤立起来。
这不是因循守旧
这些数据中有许多都不像那些企业用处理的数据那样。在大规模结构化数据环境中,数据激增所面临的大部分挑战都可以通过扩展、冗余及分析而得到解决。大数据时代,以上这些挑战仅仅是企业必须解决的小部分问题。如今收集到的数据类型来源非常广泛。数据通过嵌入式传感器、RFID芯片、箱子和音像供给、文档和图像文件、图像等其他方式而传输到数据库中。社交媒体会改变数据应有的形象。这还不包括业务伙伴之间所共享过的大数据。
组织不再描述或者规定数据所要展现的形式。实际上,如果尝试这样做,会大大地降低数据本身的价值。企业仅能预测一定数量的潜在情节或者反应。无论他们创建了多少复选框或者数据文件,总会有数据溢出的现象。从竞争的角度来说,忽视那些非传统数据的后果是极具破坏性的。最近麦肯锡全球研究院进行了一项研究,题目为:大数据是创新、竞争、生产率领域的下一个研究方向,研究表明如果企业未能充分利用现有的数据,那么该企业将亏损数千亿美元。
关系数据库仅能提供部分解决方法
由于数据量大而且种类不同,因此采用工具和技术管理非结构化数据就变得非常困难。非关系型NoSQL、XML以及关键/数值数据存储都可以协助企业解决多数大数据的可伸缩性和可访问性问题。例如Hadoop这样的解决方案使用MapReduce及Hive Query Language,为企业提供管理大数据的一个起点,并获取商业情报。如MongoDB和Cassandra这样的NoSQL数据库管理系统已经实现Hadoop集成,使客户获得至少一个客户端接口或者覆盖连接不同的数据流变得更加容易一些。
如今数据本身在企业中变得更加灵活。并行流程及智能数据将JitterBit这样的工具分块应用,将其设计成允许数据从一个应用程序传输到下一个应用程序,并保证传输的数据质量。这种通过数据类型及应用进行的集成对于时间敏感的企业活动来说非常重要,这些活动中也会涉及即时分析。一般地,这种形式的分析必须查询当前数据和历史数据,来识别新趋势。这就是SQL经常再次发挥作用的原因。
SQL、NoSQL以及大数据技术
新型数据的来临并不是否定过去几十年精心收集并整理出来的业务数据。SQL数据存储中的内部企业数据可以解释大数据与其他数据在精确性及相关性之间的差异。多数组织发现他们仍然需要为了企业数据而保持SQL结构,来支持企业最佳业务实践。将一切数据变为非结构化格式并不是集成,这仅仅是趋同化处理。与此同时,试图迫使结构化数据向非结构化数据转变也都是白费力气的努力。
从企业角度来说,集成的目标并不是关注数据结构化而是关注组织化。像新型Oracle Data Integrator这样的工具试图通过加载和转换数据的Hadoop来寻找平衡点,所以,结合传统企业数据就更容易进行分析。分析流程中,这种方法使得来自多种信息源及存储中的数据相融合,此时就更需要数据集成。这种折中的方法使得原始数据比最初的状态更加自由,维持这种隐含价值可能更适合于未来分析的新方法。
好文章,需要你的鼓励
科技专家Sungjoo Yoon在TED演讲中提出"偏好原理",认为了解用户喜好信息越多,就能创造更强大的技术。他将市场变化比作"地壳运动",从1969年命令行界面到80年代GUI,再到90年代网络界面,技术发展都遵循这一规律。自然语言处理能建立信任,而AI智能体时代的到来意味着非人类参与者将在人类主导的世界中发挥作用。
德国图宾根大学研究团队发现现代AI视觉模型具备强大的图像排序能力,能够理解年龄、美观程度等连续属性并进行准确排序。研究测试了7种AI模型在9个数据集上的表现,发现CLIP模型表现最佳,且仅需极少样本就能学会排序。这一突破为照片管理、电商展示、社交媒体等领域提供了新的技术方案。
微软推出了Copilot Vision AI新功能,该技术能够扫描和分析用户屏幕上的所有内容。这项AI视觉技术可以实时理解用户正在查看的信息,包括文本、图像和应用程序界面,为用户提供更加智能化的交互体验和个性化建议。此功能的推出标志着AI助手向更深层次的用户体验集成迈进。
KAUST团队开发UnMix-NeRF技术,首次实现3D场景重建与材料识别的同步。该系统利用光谱成像技术,能够识别物体的材料特性,不仅重建逼真3D场景,还可自动分离不同材料区域。技术在多个数据集上表现优异,为机器人、增强现实、工业检测等领域带来新突破。