大数据,“大”容量是多数人关注的焦点,但是却忽略了“内容”。
今天,第七届中国云计算大会第二天日程持续进行中,中国大数据专家委员会顾问、中国科学院院士张钹认为,现在大家比较关注形式和模式,却很少看到内容这个维度。
“大数据的处理问题仍然是个老问题,网络数据与以前的数据不同之处在于,虽然数据很多,但是有用的数据只有34%,好用的数据仅有7%,被分析的数据更是少到只有1%。”
下面张院士的这张幻灯片显示,在单机时代,计算机不需要了解具体内容是什么,然而发展到计算机网络时代,这发生了很大变化,计算机必须通过文本和图像了解用户的意图,输出用户需要的信息。
但是,计算机能了解人类吗?答案是否定的,因为计算机不了解人类的语意。这也是在网络大数据处理过程中,遇到的第一道坎儿。
因此,网络时代信息处理提出了新需求:了解用户意图、用户兴趣、用户体验,将粗数据变成知识,理解信息的内容。这里所说的“理解”,有三个层次:自然语义,也就是了解人类说的是什么,说话人的用意和受众的感受。
这就是传统信息处理面临的根本性挑战,能不能解决呢?院士给出的答案是,很难!“过去我们在处理传统信息的时候,我们做的一切事情都是和形式有关,和语意没有关系。”
所以传统的信息处理,基本上很难去做网络数据的处理,那么问题来了,机器能不能处理语意?如何处理?这时候就不得不说说机器学习和深度学习了,它在特定的条件下具有抗干扰能力。
我们固然可以用知识推动的方法解决人类深思熟虑的行为,但是很难运用到感知的信息处理中,这个事情基本上是有人工多层神经网络做的。
院士提醒说,概率统计方法存在局限性,多层神经网络也不是完美的,不要以为深度学习已经完全可以超过人类的水平,这只是在一定的条件环境下。
展望未来,院士认为,未来的大方向是把传统信息处理和人工智能结合起来,也就是“数据驱动+知识驱动”。
好文章,需要你的鼓励
人工智能领域正在通过改进模型工作方式来释放新功能。研究人员开发了一种名为"SVDquant"的4位量化系统,可以使扩散模型运行速度提高3倍,同时提升图像质量和兼容性。这种技术通过压缩参数和激活值来大幅降低内存和处理需求,为资源受限的系统带来新的可能性。
Meta公司开发了一种机器学习模型SEAMLESSM4T,能够实现36种语言之间的近即时语音翻译。该模型采用创新方法,利用互联网音频片段避免了繁琐的数据标注。这一突破性技术有望简化多语言交流,但仍需解决噪音环境、口音等挑战,并关注技术可能带来的偏见问题。
生物制药行业正积极拥抱人工智能技术,大型企业投入巨资,小型公司谨慎布局。行业面临人才、数据和工作流程等挑战,但预计到2025年将在AI就绪度方面取得实质性进展。AI有望加速药物研发,提高效率,最终造福患者,重塑医疗保健的未来。
随着 AI 需求激增,数据中心行业面临严峻挑战。能源消耗激增威胁可持续发展目标,新项目遭遇公众反对。电力供应和分配方式亟需改革,行业或将迎来动荡的 2025 年。