大数据,“大”容量是多数人关注的焦点,但是却忽略了“内容”。
今天,第七届中国云计算大会第二天日程持续进行中,中国大数据专家委员会顾问、中国科学院院士张钹认为,现在大家比较关注形式和模式,却很少看到内容这个维度。
“大数据的处理问题仍然是个老问题,网络数据与以前的数据不同之处在于,虽然数据很多,但是有用的数据只有34%,好用的数据仅有7%,被分析的数据更是少到只有1%。”
下面张院士的这张幻灯片显示,在单机时代,计算机不需要了解具体内容是什么,然而发展到计算机网络时代,这发生了很大变化,计算机必须通过文本和图像了解用户的意图,输出用户需要的信息。
但是,计算机能了解人类吗?答案是否定的,因为计算机不了解人类的语意。这也是在网络大数据处理过程中,遇到的第一道坎儿。
因此,网络时代信息处理提出了新需求:了解用户意图、用户兴趣、用户体验,将粗数据变成知识,理解信息的内容。这里所说的“理解”,有三个层次:自然语义,也就是了解人类说的是什么,说话人的用意和受众的感受。
这就是传统信息处理面临的根本性挑战,能不能解决呢?院士给出的答案是,很难!“过去我们在处理传统信息的时候,我们做的一切事情都是和形式有关,和语意没有关系。”
所以传统的信息处理,基本上很难去做网络数据的处理,那么问题来了,机器能不能处理语意?如何处理?这时候就不得不说说机器学习和深度学习了,它在特定的条件下具有抗干扰能力。
我们固然可以用知识推动的方法解决人类深思熟虑的行为,但是很难运用到感知的信息处理中,这个事情基本上是有人工多层神经网络做的。
院士提醒说,概率统计方法存在局限性,多层神经网络也不是完美的,不要以为深度学习已经完全可以超过人类的水平,这只是在一定的条件环境下。
展望未来,院士认为,未来的大方向是把传统信息处理和人工智能结合起来,也就是“数据驱动+知识驱动”。
好文章,需要你的鼓励
Google 推出基于 Gemini AI 的新功能,可自动识别 Gmail 邮件中的活动详情并添加到 Google 日历。用户只需点击新增的"添加到日历"按钮,即可快速完成日程设置。这项功能目前已向企业、教育用户和 Google One AI Premium 订阅者开放,旨在简化日程管理流程,提高工作效率。
本文介绍了5个AI自动化工作流程,可以帮助教练提高工作效率、节省时间、增加收入。这些流程包括:智能客户入职系统、会话准备流程、收集客户反馈、内容二次创作、客户进度跟踪系统等。通过这些自动化工具,教练可以减少繁琐的行政工作,将更多时间和精力投入到核心教练工作中,从而实现业务的快速增长。
IT世界发展迅速,但系统管理员却常常对升级持谨慎态度。这种保守倾向对微软等科技公司推广新产品造成了阻碍。以SQL Server为例,2019版本已退出主流支持,而最新的2022版本市场份额却不足0.1%。管理员之所以迟迟不升级,主要出于系统稳定性、成本效益、功能需求等多方面考虑。这种现象不仅存在于商业软件,开源数据库也面临类似问题。
两个旨在创建更开放网络的倡议可能即将联手。在 SXSW 2025 大会上,Project Liberty 创始人 Frank McCourt 宣布正与万维网之父 Tim Berners-Lee 讨论与 Solid 项目整合的可能性。这两个项目都致力于让用户掌控自己的数字身份和数据,如果合作成功,将为构建一个更加开放和用户自主的互联网生态系统带来新的机遇。