有个脑筋急转弯说,把大象放进冰箱需要几步?
答:三步。
把冰箱门打开。
把大象放进去。
把冰箱门关上。
那么把大模型放进冰箱需要几步?
答:四步。
把冰箱门打开。
把大象取出来。
把大模型放进去。
把冰箱门关上。
那么把大模型放进手机需要几步?小米给出自己的答案!
我们知道AI大模型带来的变革影响无需多言,可以让每个人实现从不可能到可能。
你可以拥有一个专属的“私人医生”,提供健康咨询问答、辅助就诊前医疗决策;
你可以成为一个“烹饪大师”,为家人随时享受一份美食;
你可以随时出行,拥有一个“贴身翻译官”,与多国外语者进行流畅交谈;
你还可以变身“数字程序员”,根据自然语言描述的需求快速生成代码片段;
还可以成为“写作家”,通过AI大模型为你提供写作灵感、提升写作效率,让你的写作内容更精彩。
当然要实现这些智能体验,背后是大家熟知的AI三要素:算力、算法和数据。
当前谈到大模型,首先想到的是成百上千的GPU服务器组成的算力底座。但是也有产业人士在思考,如何通过轻量化、智能设备等单个算力来实现大模型带来的价值?
来源:小米
把大模型放进手机可不可行,很多业内人士提出质疑,认为运行大模型在手机上会面临多个挑战:
首先是算力挑战,手机的处理器(CPU)和图形处理器(GPU)的计算能力远远低于服务器级别的硬件。大模型通常需要大量的计算资源来进行预测和训练,以及超大内存来存储模型参数和中间计算结果。这样看来,手机的计算单元和内存单元的大小可能限制了大模型的运行。
其次是电池挑战,大模型的运行通常需要大量的计算资源和网络资源,手机那点电量如何支撑运算,如何通过稳定的网络连接实现对云服务进行训练和更新。即使在支撑,也是对手机电池的寿命造成大大影响。
第三是用户体验挑战,不仅模型的运行可能会占用大量的手机资源,会影响到其他应用的运行,同时大模型的效果是否能达到理想的效果也受到怀疑。
当然有挑战就有机遇,如果把大模型运行在手机上,那么在算力成本上、随时随地处理信息、无需考虑网络环境、交互体验等方面又能实现质的飞跃。因此在小米集团技术委员会AI实验室主任王斌看来,端侧大模型有其存在的必然性,也就是说把大模型跑在手机上其背后是用户需求再驱动。
基于这样的判断在8月份,小米也推出了自研13亿参数端侧大模型MiLM,真正实现了把大模型塞到放在手机里的。
王斌认为针对AI大模型领域的发展趋势和未来可能的形态来看,未来可能是一个混合体的状态,既有云端也有端侧,既有大模型,也有小模型。当前AI模型非常大,消耗的算力就会相应增加,这导致了模型的资源代价非常高。因此,未来的发展一定是大模型和小模型共存的状态,甚至还包括通用模型和专用模型的共存。
这样的混合状态将形成一个共同的生态,可以将用户体验做到极致。在这个混合状态中,有些任务适合在云端完成,有些任务则适合在端侧完成。为了实现这种共存状态,需要各种大小的模型去做不同的任务的策略。 因为除了通用能力之外,不同维度的小模型可能更适合于某一种任务。
以实时翻译为例,“比如说我们在做一些同传的时候,大家可以看到有一些产品其实它有一个延迟非常大的延迟,别人在讲上一句话的时候咱还不能翻译,等他讲到下一句话,这个才翻译出来,如果使用手机端的翻译功能,可以保证非常强的实时性,几乎可以做到同时翻译。” 王斌在《Whats next科技早知道》节目中分享到。
来源:小米官网
小米能第一时间推出端侧大模型,也是因为小米很早就布局AI领域的创新,早在2016年7月,AI视觉团队共有40多项算法落地手机和AloT设备,代表性算法包括HDR、超级夜景、万物追焦、文档OCR等。 到2017年9月,小米AI实验室涵盖视觉、语音、声学、NLP、机器学习、知识图谱、大模型等方向,每年向集团各业务输出300余项算法。2018年12月,AI 影像算法团队在小米与徕卡合作及多帧降噪、夜景、抓拍、人像等特性中提供30多项核心技术。通过技术创新荣获60余项专利。当2023年4月大模型团队成立,2023年8月,小米自研6B语言大模型MiLM-6B在权威中文评测榜单C-EVAL和CMMLU中位列同等参数规模大模型第一。
来源:小米官网
王斌还分享了小米端侧大模型的深层次原因,相对于Open AI、谷歌等AI能力非常强领头企业。小米的AI策略更加务实,一切从用户出发,考虑广大使用者的切实需求。在通用人工智能的发展过程中,小米可能会结合遥远的探索和务实的策略,以提高用户体验。 最后,作者补充说,通用人工智能的理解在专家和用户之间存在差异,对于学术界来说,通用人工智能的实现可能还很遥远,虽然现在的大模型已经出现了一些通用人工智能的曙光,但其挑战和难度仍然非常大。
我们看到,虽然当前大部分的大模型都运行在云端,然而,小米等手机厂商公司基于端侧的大模型也有其相对优势。一方面,这些公司拥有大量的设标准化的智能设备,这些设备的计算能力相对于过去已经有了指数级的提升。另一方面,大量调用云端算力会带来巨大的成本,同时还需要考虑到用户隐私和网络情况。因此,手机厂商会考虑将大部分能力移植到端侧,以提高用户体验并节省成本。 然而,这其中的挑战也非常大。大模型本身由于其庞大的规模,能体现出强大的通用能力。因此,如何在云端和端侧之间找到一个平衡,是一个需要解决的问题。
当然针对这些挑战,目前端侧大模型厂商在部署上也在采取了相关的策略,包括使用轻量级模型架构,实现了在设计时就考虑到了计算效率和模型大小。通过模型压缩技术,可以减小模型的大小,降低模型的计算需求,使其能够在手机上运行。
还可以结合分布式计算和边缘计算,将一部分计算任务放在边缘服务器上,以及将模型的计算任务分散到多个手机上,减轻单个设备的计算负担。
作为AI领域的实践者,要对AI的边界和其对产品和生活的改变有清晰的认识。当前AI在社会和工业界还未发挥出预想的能力,但是未来十年, AI是一个能够撬动整个社会变革的非常重要的力量。小米作为一个产品驱动的公司,产品迭代速度快,技术跟进也很快。AI对小米的帮助,不仅仅是锦上添花或者提高效率,而是作为基础设施,对整个公司的赋能是全面的。
“我可以很自信的说,我们在AI上的投入,以及我们在 AI上取得的一些成绩还是非常不错的,因为小米是一个对用户负责的公司,产品里面上了这是最好的技术,即使是我们自己的技术也要去和所有的第三方PK才能够真正进到我们的产品当中去。” 王斌最后表示。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。