上周去内蒙古呼和浩特参加第十五届全国高性能计算学术年会。在返京的时候,体验了内蒙古白塔国际机场安检验票处的人脸识别系统。第一感觉是检测速度快,外观看应该是最新装备的系统。除了人脸识别,还配套崭新的人机交互设备,以及智能机器人等整个方案。因此走在安检处,同时听着带有科技感的智能语音,视觉和听觉上感觉走进一个科幻的场景,就像走在科幻电影里面的感觉。
之前因为科技类大会基本上都是在北上深以及杭州、成都等这些发达城市。所以并不太了解中西部这些城市的发展情况。此次看到内蒙古机场的AI应用,深刻感受到了云计算、AI等科技技术给整个社会带来深刻的变化。
一直以来,大家主观的印象是城市经济越发达,包括科技、人文、教育也会首先收益。但是移动互联、AI的发展,真的打破了这个界限。就像科技应用,并不是所在的城市经济越发达,科技利用就越早。就像我亲身的感受,别的不说,单是人脸识别系统的应用,个人感觉内蒙古白塔国际机场在智能应用方面走在了很多一线城市前面。
从内蒙古白塔机场的景象可以看到,全国各个机场应该都是在积极的利用云计算,利用人工智能等数字化转型工具来改善人们的出行。
而这仅仅是AI技术在机场出行方面的小小应用,推而广之,在城市交通、智慧城市、智能安防、智慧农业、智能制造方面,新的技术相信已经在全国各地遍布开花。
体验了机场的AI,又想到多个人脸识别的应用场景。乘坐高铁的体验,目前支付宝的人脸识别自助式购物等等。笔者突然意识到,未来计算机视觉会成为人工智能应用爆发的首要突破口。
我们知道,目前人工智能领域主要有这几个方向,计算机视觉,语音识别,自然语言理解。语音识别和自然语音理解更多的是对人的行为的探索。而计算机视觉是对万物的捕捉。按照目前的AI应用趋势,个人认为计算机视觉应该是应用场景最深最广,也是人工智能领域最重要的方向之一。
大家想象一下,计算机视觉不仅仅是对人的观察,也是对实体世界的关注,通过对万物的理解,通过对万物的数据的采集,可以说计算机视觉AI是智慧物联网时代最大的数据入口,目前谈到火热的自动驾驶、智能机器人都是基于计算机视觉来设计的。
如果说计算机视觉是消费者感受人工智能应用的直观技术和体验方式。那么其背后一定需要一个智能的操作系统在支撑。回首过去,以Windows系统为代表的操作系统,让人们进入PC时代;以苹果OS和安卓为代表的移动操作系统让人们进入移动互联时代;那么智能时代肯定也必须出现一种或多种智能操作系统来满足智能时代的需求,目前来看华为鸿蒙算是一个。
这个系统应该能满足计算机视觉背后对于深度学习算法的超高性能的需求,需要连接虚拟世界和物理世界的超高带宽需求,需要对实时交互的超低时延的需求。
而这些需求的满足,5G只能算起步。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。YAAL准确性达96%,比传统方法提升20多个百分点。研究还开发了专门的长音频评估工具LongYAAL,为AI翻译技术发展提供了可靠的测量标准。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。