上周去内蒙古呼和浩特参加第十五届全国高性能计算学术年会。在返京的时候,体验了内蒙古白塔国际机场安检验票处的人脸识别系统。第一感觉是检测速度快,外观看应该是最新装备的系统。除了人脸识别,还配套崭新的人机交互设备,以及智能机器人等整个方案。因此走在安检处,同时听着带有科技感的智能语音,视觉和听觉上感觉走进一个科幻的场景,就像走在科幻电影里面的感觉。
之前因为科技类大会基本上都是在北上深以及杭州、成都等这些发达城市。所以并不太了解中西部这些城市的发展情况。此次看到内蒙古机场的AI应用,深刻感受到了云计算、AI等科技技术给整个社会带来深刻的变化。
一直以来,大家主观的印象是城市经济越发达,包括科技、人文、教育也会首先收益。但是移动互联、AI的发展,真的打破了这个界限。就像科技应用,并不是所在的城市经济越发达,科技利用就越早。就像我亲身的感受,别的不说,单是人脸识别系统的应用,个人感觉内蒙古白塔国际机场在智能应用方面走在了很多一线城市前面。
从内蒙古白塔机场的景象可以看到,全国各个机场应该都是在积极的利用云计算,利用人工智能等数字化转型工具来改善人们的出行。
而这仅仅是AI技术在机场出行方面的小小应用,推而广之,在城市交通、智慧城市、智能安防、智慧农业、智能制造方面,新的技术相信已经在全国各地遍布开花。
体验了机场的AI,又想到多个人脸识别的应用场景。乘坐高铁的体验,目前支付宝的人脸识别自助式购物等等。笔者突然意识到,未来计算机视觉会成为人工智能应用爆发的首要突破口。
我们知道,目前人工智能领域主要有这几个方向,计算机视觉,语音识别,自然语言理解。语音识别和自然语音理解更多的是对人的行为的探索。而计算机视觉是对万物的捕捉。按照目前的AI应用趋势,个人认为计算机视觉应该是应用场景最深最广,也是人工智能领域最重要的方向之一。
大家想象一下,计算机视觉不仅仅是对人的观察,也是对实体世界的关注,通过对万物的理解,通过对万物的数据的采集,可以说计算机视觉AI是智慧物联网时代最大的数据入口,目前谈到火热的自动驾驶、智能机器人都是基于计算机视觉来设计的。
如果说计算机视觉是消费者感受人工智能应用的直观技术和体验方式。那么其背后一定需要一个智能的操作系统在支撑。回首过去,以Windows系统为代表的操作系统,让人们进入PC时代;以苹果OS和安卓为代表的移动操作系统让人们进入移动互联时代;那么智能时代肯定也必须出现一种或多种智能操作系统来满足智能时代的需求,目前来看华为鸿蒙算是一个。
这个系统应该能满足计算机视觉背后对于深度学习算法的超高性能的需求,需要连接虚拟世界和物理世界的超高带宽需求,需要对实时交互的超低时延的需求。
而这些需求的满足,5G只能算起步。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。