Sora的横空出世,让人们更清晰地看到多模态大模型的潜力与价值。赛迪工业和信息化研究院四川有限公司紧扣科技发展趋势,于近日重磅发布“2024中国人工智能多模态大模型企业综合竞争力20强”榜单。
三六零人工智能通用大模型“360智脑”凭借行业影响力、技术竞争力、数据优势、模型规模、算力能级等综合优势,顺利入选“AI多模态大模型企业20强”榜单。360智慧生活集团旗下的360视觉云针对安防行业的需求与痛点,深度整合“360智脑”和云SaaS服务模式,将前沿的多模态大模型技术与中小微企业实际应用场景相融合。这种与垂直场景的紧密结合得到了评委会的高度认可,360视觉云被评为“AI多模态大模型企业20强”的“明星案例”。
让人工智能技术“落地”,一直是国产多模态大模型发展的重点,也是行业普遍关注的难点。在这方面,360智慧生活集团走在了行业前列,其360视觉云早在2023年就在国内率先立足于安防行业的应用场景,对“360智脑-视觉大模型”进行海量图文数据的清洗训练,并针对安防场景百万级行业精标数据进行微调。在此基础上,360视觉云将360智慧生活的智能硬件接入大模型,让大模型的处理能力从数字世界走向物理世界,走向垂直行业的真实应用场景。
经过严格的内测,目前360视觉云的多模态大模型技术已经在连锁巡店、公共场所安全巡检、物业管理、4S店库存车管理等多个场景应用落地。在多模态大模型的赋能下,如今360视觉云可向中小微企业提供全套的智能安防解决方案和50多种场景算法,所有算法都支持“开箱即用”,用户可在360视觉云上进行在线测试和在线订阅。考虑到中小微企业技术和资金资源有限的问题,360视觉云致力于降低中小微企业应用大模型的门槛,实现了算法运行容器化、场景适配规则化、技能与检测结果可视化,可以更好地协助中小微企业开展数字化转型与安防能力建设。
让大模型“落地”的一大难点是其系统规模大,难以部署在边缘设备上。在这方面,360视觉云将前沿的多模态大模型,与更适合中小微企业数字化落地的SaaS产品形态相结合,既降低了中小微企业应用大模型的难度,又满足了大模型需要用户反馈数据强化自身学习的要求。此外,360智慧生活在“做大”大模型的同时,还针对细分场景打造小模型,并把小模型部署在边缘设备上。大模型处理能力强,小模型则实时性强,可节省网络带宽,二者结合能够形成优势互补。这种创新性的大小模型协同,以及端边云的融合,很好地化解了大模型落地难题,成为360视觉云应用大模型技术的一大亮点。
多模态大模型技术的突破,已经点燃了安防行业剧变的导火索。360视觉云深度整合“360智脑-视觉大模型”,无缝衔接安防场景和用户的数据反馈,率先在安防领域形成了多模态大模型的良性迭代和初步落地。随着360智慧生活解决方案“智见”能力的不断提升,以深度学习为核心的图像检测等相关算法将不断拓展安防产品的应用范围,有望扩大360智慧生活产品在平安城市、雪亮工程等项目中的应用深度,引领安防从视频监控到事中监控到智慧运营管理的升级转变,切实推动数字城市、孪生城市建设走向深入。
好文章,需要你的鼓励
这项研究由德累斯顿工业大学等机构的研究团队完成,旨在解决主动学习未被广泛应用的问题。研究者构建了包含460万种超参数组合的实验网格,系统分析了各参数对主动学习性能的影响。研究发现,不同策略实现间存在显著差异,基于边缘的不确定性策略整体表现最佳,随机选择约4000个超参数组合即可获得可靠结果。这些发现为设计可重现、可信赖的主动学习实验提供了明确指导,有助于降低入门门槛,促进技术在实际应用中的普及。
这项由英国爱丁堡大学和上海人工智能实验室研究者共同完成的工作提出了LongBioBench,一种用于评估长文本语言模型的新型基准测试框架。通过使用人工生成的虚构人物传记作为测试环境,该框架在保持可控性的同时,提供了更真实的评估场景。研究对18个长文本模型的测试表明,即使最先进的模型在检索、推理和可信任性方面仍存在显著挑战,特别是上下文长度增加时。研究还揭示了现有合成基准测试的设计缺陷和长上下文预训练的局限性,为未来模型开发提供了重要指导。
SuperWriter是一项来自新加坡科技设计大学和清华大学的突破性研究,通过模仿人类"先思考后写作"的过程,彻底改良了AI长文生成能力。该研究团队开发的框架包含三个关键阶段:规划、写作和修改,使AI能像专业作家一样进行结构化思考。实验结果表明,经过训练的SuperWriter-LM模型不仅超越同等规模的所有AI模型,甚至在某些领域表现优于规模更大的顶级模型,为AI辅助写作开创了新的可能性。
香港大学与阿里巴巴达摩院合作开发的LayerFlow是一种突破性的层级视频生成技术,能同时生成透明前景、完整背景和混合场景视频。该技术通过创新的框架设计将不同视频层级作为子片段连接,并引入层级嵌入使模型区分各层级。面对高质量训练数据稀缺的挑战,研究团队设计了三阶段训练策略,结合Motion LoRA和Content LoRA,实现了图像和视频数据的联合训练。LayerFlow不仅支持多层视频生成,还能实现视频分解和条件层生成,为视频创作领域带来革命性变革。