上周去内蒙古呼和浩特参加第十五届全国高性能计算学术年会。在返京的时候,体验了内蒙古白塔国际机场安检验票处的人脸识别系统。第一感觉是检测速度快,外观看应该是最新装备的系统。除了人脸识别,还配套崭新的人机交互设备,以及智能机器人等整个方案。因此走在安检处,同时听着带有科技感的智能语音,视觉和听觉上感觉走进一个科幻的场景,就像走在科幻电影里面的感觉。
之前因为科技类大会基本上都是在北上深以及杭州、成都等这些发达城市。所以并不太了解中西部这些城市的发展情况。此次看到内蒙古机场的AI应用,深刻感受到了云计算、AI等科技技术给整个社会带来深刻的变化。
一直以来,大家主观的印象是城市经济越发达,包括科技、人文、教育也会首先收益。但是移动互联、AI的发展,真的打破了这个界限。就像科技应用,并不是所在的城市经济越发达,科技利用就越早。就像我亲身的感受,别的不说,单是人脸识别系统的应用,个人感觉内蒙古白塔国际机场在智能应用方面走在了很多一线城市前面。
从内蒙古白塔机场的景象可以看到,全国各个机场应该都是在积极的利用云计算,利用人工智能等数字化转型工具来改善人们的出行。
而这仅仅是AI技术在机场出行方面的小小应用,推而广之,在城市交通、智慧城市、智能安防、智慧农业、智能制造方面,新的技术相信已经在全国各地遍布开花。
体验了机场的AI,又想到多个人脸识别的应用场景。乘坐高铁的体验,目前支付宝的人脸识别自助式购物等等。笔者突然意识到,未来计算机视觉会成为人工智能应用爆发的首要突破口。
我们知道,目前人工智能领域主要有这几个方向,计算机视觉,语音识别,自然语言理解。语音识别和自然语音理解更多的是对人的行为的探索。而计算机视觉是对万物的捕捉。按照目前的AI应用趋势,个人认为计算机视觉应该是应用场景最深最广,也是人工智能领域最重要的方向之一。
大家想象一下,计算机视觉不仅仅是对人的观察,也是对实体世界的关注,通过对万物的理解,通过对万物的数据的采集,可以说计算机视觉AI是智慧物联网时代最大的数据入口,目前谈到火热的自动驾驶、智能机器人都是基于计算机视觉来设计的。
如果说计算机视觉是消费者感受人工智能应用的直观技术和体验方式。那么其背后一定需要一个智能的操作系统在支撑。回首过去,以Windows系统为代表的操作系统,让人们进入PC时代;以苹果OS和安卓为代表的移动操作系统让人们进入移动互联时代;那么智能时代肯定也必须出现一种或多种智能操作系统来满足智能时代的需求,目前来看华为鸿蒙算是一个。
这个系统应该能满足计算机视觉背后对于深度学习算法的超高性能的需求,需要连接虚拟世界和物理世界的超高带宽需求,需要对实时交互的超低时延的需求。
而这些需求的满足,5G只能算起步。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。