第六届中国云计算大会已经进入下午的演讲环节,会中,百度技术委员会理事长陈尚义带来了“百度大数据引擎”的主题演讲,期间他谈了对于大数据一些的看法,畅谈了大数据在行业应用中的一些挑战和百度大数据近期取得的新成果。
百度技术委员会理事长陈尚义
大数据发展进入新阶段
陈尚义表示大数据从发展至今,经历了四个阶段,最初2011年所提倡的4个V阶段,那时候做的更多的是试图对概念进行理解。
大数据发展历程
2012年走入第二个阶段,此时,大数据引起更多的政府关注,各地省政府和地方政府都把大数据占比提高到非常高的高度,国家一些重点的专项以及重点项目把大数据列为支持项目。
第三阶段进入到大数据的迷茫期,人们纷纷寻找自己的数据,不断地对数据资源开发利用进行探讨,探讨的标志性问题就是跨界交流,包括大数据的价值挖掘等等。此时陷入了一种误区,注重讨论大数据的技术和方法,而错把传统的技术当做大数据的技术,缺乏意识大数据所必须面对的挑战。
如今走入大数据的第四阶段,回归到了最初的4V理论,意识到真正的大数据一定是高速成长,数据量激素膨胀,要开发新的平台满足大规模和高速膨胀的需求,而不应该只停留在数据方面的工作。
行业大数据遭遇挑战
在第三阶段中,百度就讨论了大数据对于行业应用。陈尚义表示,包括很多的传统行业,也意识到了大数据的行业价值,但纠结于其中所遇到一些挑战。
挑战一:数据孤岛问题,数据价值未知。什么是行业数据?数据来源如何?如何实现价值,这是最初该考量的,行业数据如果不与其他数据进行联合,而变成孤岛的话,数据价值非常有限。
挑战二:数据成长速度巨大。大数据成长的速度,膨胀的速度是以十数亿的速度增长。例如来自生活真实服务器的速度,5年涨了20倍。一个大型的医院三年以后将近1千台服务器,这对成本压力是非常大的。
挑战三:技术遭遇瓶颈,智能缺失。数据智能技术缺失,数据管理与挖掘技术缺乏,数据存储与计算技术瓶颈,这些难题一旦遭遇到海量数据、超大型数据、是否能Handle住。
百度大数据不断实践
在大数据的发展过程中,百度一直都有参与。在数据方面,建立了大型数据中心,山西和内蒙超过10万多,70万的CPU,能够达到4000亿,服务器指标能达到几百万,帐号达到第一的规模。第一年下来成本降低到50%,相对于去年同期的50%。
在人工智能方面,包括百度语音、图片搜索、还有自然语音处理百度翻译,自然语言理解等等,背后都是大数据技术的支撑。另外百度还有一个大数据方面的实践——大数据预测,并为此专门做了一个网站trends.baidu。
包括景点预测、城市旅游预测、高考预测,还有马上即将面市的世界杯预测
百度大数据引擎预知天下
最后陈尚义还跟大家分享了百度大数据引擎。
这是大数据引擎的示意图,中间一块就是黄色、绿色、蓝色这是大数据引擎本身,然后再看上和下,下是行业数据,上面是行业价值和行业应用
第一个部分就是开放云,过去在移动方面做了百度开放平台,百度对中小开发者开发,已经取得了成效。这里不仅包括行业开放,还有分布式的存储计算。
中间部分是数据工厂,顾名思义由大量的规模性点击的数据变成结构化的较小的数据,从超大规模的数据迅速的找到所需要的数据。
最上面是百度大脑,包括超大规模机器学习,以大数据为基础开展移动智能的工作。百度的数据联合行业数据产生更大的价值。向上三个箭头分别表示百度引擎每一个层次都可以单独对外开放,跟云计算的IaaS、SaaS、PaaS类似。
从百度推荐引擎中,不难看出百度对于行业大数据的重视,赋予了行业应用更多的新应用。百度+旅游、百度+健康、百度+商业等等的结合,帮助预测得到各种生活所需数据:城市旅游热度、健康指数、天气数据,人口迁徙数据,人口的数据等等,这些数据都会被用来模型的需求预测。甚至结合商业价值,达到精准投放广告,实现个性化服务。
后记:陈尚义还透露了百度研发方面的一些新消息,他透漏上周百度刚刚设立了百度硅谷研究员,其中还聘请了原谷歌技术人员加盟,希望明年有机会在云计算大会上与大家分享人工智能的新发展。
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。