经历了24小时的疯狂后,11月12日零点,阿里巴巴交出了一份完美答卷:天猫双十一交易额破571亿元、产生物流订单2.78亿单、全球共217个国家和地区的网友参与。阿里巴巴又赚了个盆满钵满。
从IT角度看,这是一个大数据支撑起来,由精准分析为结果导向的数据时代的成功。他们分析商家的供货能力,仓储,快递物流运力,客观条件和人们的购买力,这一切无一不和大数据相关。信息爆炸的时代,处理海量数据已经成为了企业成功的必要条件。
根据EMC的调研报告,目前全球数字世界总共有大约4.4万亿千兆字节的信息。到2020年,信息总量将会达到44万亿千兆字节。对于企业而言,如何跑在海量信息数据之前?这意味着首先要了解哪些是有用的信息,哪些将会带来可操作的真知灼见。幸运的是,以下的五个科技趋势可以帮助企业在信息爆炸的时代管理好数据。
数据科学的兴起
近来Business 2 Community的一篇文章引发了人们的争论:谈及大数据,很多时候这些数据比谎言还坏。最大的问题是让数据本身说话可能导致伪相关性。一个经常被重复的例子就是,由于冰淇淋的销售和泳池溺水案例往往在同一时间内增加,因此它们必须是相关的。但事实上,夏天高温才是两者的根本原因。
这同样适用于大数据。任其发展,分析程序将返回到一个“关系”主机,很多无非只有简单的相关性。如何解决?数据科学家。根据Villanova大学的研究,数据科学将在高新技术产业,如麦肯锡公司填补这一独特的需求。同时,报告声称,到2018年,这种人才的缺口量将达到14万到19万。
有针对性的应用
根据PC Pro 杂志Steve Cassidy的预测,有针对性,能帮助企业在大数据时代弄潮的应用技术前景光明。Cassidy将它描述成“数据已经无孔不入地进入到日志服务器和存储库中。”
第一次用这个解决方案?没关系,先从一个简单的设置,利用一个轻量级的日志服务开始。你会马上看到纯粹的信息广度和访问量。为了管理所有这些数据,可以使用系统日志报表工具,监控即将发生的一切并提供清晰的报告。
正确的工作平台
在HuffPost的采访中,数据专家William McKnight认为很难找到正确的工作平台。虽然有时候很难判定更换工作系统是否有效,即使它表现得并不如意,然而固守原有的数据处理方法将会将企业置于落后的境地。
McKnight指出,即使公司选择一种专用的数据选择,他们常常选择一个巨大的,包罗万象的数据仓库。通过利用柱状数据库或内存中高性能数据库技术,结合主数据管理(MDM)的策略,将有可能打造出一个理想的工作平台。
主数据管理(MDM)
MDM不仅可以帮助管理所输入的数据,而且确有其效。将客户相关的多个数据源输入,即可创造可操作的见解,而数据的有效性至关重要。MDM工具允许您在数据分析之前,或在形成新的营销活动策略之前,验证信息。虽然大数据部署的所有权(TCO)的总成本将是巨大的,但也是最好的。主数据管理有助于慢慢降低这种成本。
语音分析
电话和视频聊天包含有用的信息,但是除了标准的“此通话可能会被监控”的意见之外,大多数企业并没有充分利用这些内容。主持PBX或VoIP系统提供场外管理不仅方便了统一通信的所有方面——诸如移动电话、语音和视频——现在也可以用来作为一个大数据的策略,成为语音分析,情绪检测的一部分。结果?能够更好地了解客户的需求和底线,这些有时候并不能一眼就判断出来。
要处理的海量数据?找到合适的人员,采用正确的应用程序,选择合适的工作平台。然后,进行语音分析,让信息收集工作更进一步。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。