百度陈尚义：大数据引擎+行业=预知天下

第六届中国云计算大会已经进入下午的演讲环节，会中，百度技术委员会理事长陈尚义带来了“百度大数据引擎”的主题演讲，期间他谈了对于大数据一些的看法，畅谈了大数据在行业应用中的一些挑战和百度大数据近期取得的新成果。

百度技术委员会理事长陈尚义

大数据发展进入新阶段

陈尚义表示大数据从发展至今，经历了四个阶段，最初2011年所提倡的4个V阶段，那时候做的更多的是试图对概念进行理解。

大数据发展历程

2012年走入第二个阶段，此时，大数据引起更多的政府关注，各地省政府和地方政府都把大数据占比提高到非常高的高度，国家一些重点的专项以及重点项目把大数据列为支持项目。

第三阶段进入到大数据的迷茫期，人们纷纷寻找自己的数据，不断地对数据资源开发利用进行探讨，探讨的标志性问题就是跨界交流，包括大数据的价值挖掘等等。此时陷入了一种误区，注重讨论大数据的技术和方法，而错把传统的技术当做大数据的技术，缺乏意识大数据所必须面对的挑战。

如今走入大数据的第四阶段，回归到了最初的4V理论，意识到真正的大数据一定是高速成长，数据量激素膨胀，要开发新的平台满足大规模和高速膨胀的需求，而不应该只停留在数据方面的工作。

行业大数据遭遇挑战

在第三阶段中，百度就讨论了大数据对于行业应用。陈尚义表示，包括很多的传统行业，也意识到了大数据的行业价值，但纠结于其中所遇到一些挑战。

挑战一：数据孤岛问题，数据价值未知。什么是行业数据？数据来源如何？如何实现价值，这是最初该考量的，行业数据如果不与其他数据进行联合，而变成孤岛的话，数据价值非常有限。

挑战二：数据成长速度巨大。大数据成长的速度，膨胀的速度是以十数亿的速度增长。例如来自生活真实服务器的速度，5年涨了20倍。一个大型的医院三年以后将近1千台服务器，这对成本压力是非常大的。

挑战三：技术遭遇瓶颈，智能缺失。数据智能技术缺失，数据管理与挖掘技术缺乏，数据存储与计算技术瓶颈，这些难题一旦遭遇到海量数据、超大型数据、是否能Handle住。

百度大数据不断实践

在大数据的发展过程中，百度一直都有参与。在数据方面，建立了大型数据中心，山西和内蒙超过10万多，70万的CPU，能够达到4000亿，服务器指标能达到几百万，帐号达到第一的规模。第一年下来成本降低到50%，相对于去年同期的50%。

在人工智能方面，包括百度语音、图片搜索、还有自然语音处理百度翻译，自然语言理解等等，背后都是大数据技术的支撑。另外百度还有一个大数据方面的实践——大数据预测，并为此专门做了一个网站trends.baidu。

包括景点预测、城市旅游预测、高考预测，还有马上即将面市的世界杯预测

百度大数据引擎预知天下

最后陈尚义还跟大家分享了百度大数据引擎。

这是大数据引擎的示意图，中间一块就是黄色、绿色、蓝色这是大数据引擎本身，然后再看上和下，下是行业数据，上面是行业价值和行业应用

第一个部分就是开放云，过去在移动方面做了百度开放平台，百度对中小开发者开发，已经取得了成效。这里不仅包括行业开放，还有分布式的存储计算。

中间部分是数据工厂，顾名思义由大量的规模性点击的数据变成结构化的较小的数据，从超大规模的数据迅速的找到所需要的数据。

最上面是百度大脑，包括超大规模机器学习，以大数据为基础开展移动智能的工作。百度的数据联合行业数据产生更大的价值。向上三个箭头分别表示百度引擎每一个层次都可以单独对外开放，跟云计算的IaaS、SaaS、PaaS类似。

从百度推荐引擎中，不难看出百度对于行业大数据的重视，赋予了行业应用更多的新应用。百度+旅游、百度+健康、百度+商业等等的结合，帮助预测得到各种生活所需数据：城市旅游热度、健康指数、天气数据，人口迁徙数据，人口的数据等等，这些数据都会被用来模型的需求预测。甚至结合商业价值，达到精准投放广告，实现个性化服务。

后记：陈尚义还透露了百度研发方面的一些新消息，他透漏上周百度刚刚设立了百度硅谷研究员，其中还聘请了原谷歌技术人员加盟，希望明年有机会在云计算大会上与大家分享人工智能的新发展。

来源：ZDNet存储频道

0赞

好文章，需要你的鼓励

百度陈尚义：大数据引擎+行业=预知天下

来源：ZDNet存储频道

2014

05/21

15:56

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

百度2025 Q1财报深度解读：智能云表现强劲，萝卜快跑已拓展全球 李彦宏详解AI战略：AI-first战略使百度保持领先地位

文心iRAG和无代码“秒哒”发布：电子牛马来了，还是成群来的

OpenAI API “断供”阴云下国产大模型的危与机

百度CEO李彦宏：文心一言用户数突破2亿，让开发者成为AI时代的主角

有意见 | 百度业绩超预期，AI稳中求进，正是兵强马壮时，只待出击！

《数字经济洞察周报》2023年第29期 | 全球人工智能治理倡议发布

《数字经济洞察周报》2023年第27期 | 腾讯混元大模型发布

办公人的神器，Gamma AI与百度文库文档助手上手体验

有意见 | 百度Q3财报：“我给大家表演个开花！”

《百度Q3财报：营收344.47亿元，AI原生应用数据指标显著增长》

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

百度2025 Q1财报深度解读：智能云表现强劲，萝卜快跑已拓展全球李彦宏详解AI战略：AI-first战略使百度保持领先地位