在互联网、5G+及软硬件技术驱动下,手机已发展成为涵盖摄影、游戏、娱乐、资讯、社交、移动支付、办公协作等多场景的智慧终端,成为人们工作生活中不可或缺的一部分。而随着 AI 浪潮的到来,更是让手机行业迎来了新一轮的变革。
7月17日,中国三星电子正式召开新一代 Galaxy Z 系列新品发布会,新发布的 Galaxy Z Fold6 以及 Galaxy Z Flip6 无论是在沟通和生产力方面,还是在影像领域都实现了全新的移动体验,能够为用户带来更高效便捷的生活方式。
为了进一步丰富三星 Galaxy AI 生态合作,三星携手火山引擎,借助火山方舟平台、豆包大模型的技术优势,挖掘 AI 手机潜力,充分发挥三星 Galaxy Z 系列手机的硬件和系统优势,为用户打造更加优质、个性化的智能服务。
在 AI 大模型的推动下,如何在终端应用生态层加速创新,满足各类用户对 AI 应用的多样化需求,已成为终端厂商普遍关注的问题。在2024春季火山引擎 FORCE 原动力大会上,火山引擎携手6家知名终端厂商,共同成立了智能终端大模型联盟,旨在探索下一代 AI 应用,驱动 AI 终端增长,与全球消费者共筑智能未来,中国三星正是联盟的首批成员单位之一。
在三星 Galaxy Z 系列新品发布会的现场,三星电子大中华区用户体验战略副总裁许元默、火山引擎生态副总裁赵文婕展示了双方合作的最新成果。火山引擎在 AI 大模型领域的深耕与三星智能终端的丰富经验相结合,通过豆包大模型的更强模型、更低价格、更易落地的特性,结合火山方舟大模型服务平台及扣子企业级 AI 开发平台的技术与生态优势,双方专注于提升三星手机的智能视觉与 Bixby 语音助手功能,为三星用户带来更加丰富的互动体验。
Bixby 结合丰富内容生态的多模态输出,带来更生动有趣的信息
借助豆包大模型及火山方舟平台提供的内容插件,深入剖析用户多模态使用场景,为三星 Galaxy AI 用户带来了更加精准、高效的服务体验。
豆包大模型经过字节跳动内部50+业务场景实践验证,通过千亿级日 tokens 的大使用量的打磨,能够精准识别、判断用户意图,实现与用户高质量的问答互动。
面向信息的时效性和内容输出单一的难点,火山引擎基于火山方舟2.0为三星手机提供了内容插件。在三星 Galaxy Z 系列新品手机上,当用户通过 Bixby 语音助手搜索旅行相关等关键词时,三星 Galaxy AI 会搜索并结合抖音集团优质内容源,为用户提供最新且权威的联网信息,并以短视频内容卡片的形式输送给用户。
例如,当用户在某个城市旅行时,Bixby 助手能够依托海量内容源,为用户提供景区、美食、酒店等信息,帮助用户完善旅行规划,打卡每一处美景。
三星 Bixby 语音助手生成内容
一键生成个性化图片,开启丰富多样的视觉体验
三星 Galaxy AI 全新推出的智绘人像功能,通过引入豆包大模型单图 AI 写真技术,以更强的图片处理能力提升用户的摄影体验,让用户能以更个性化的方式,高效处理所拍摄的照片,为照片增添实用性与趣味性。火山引擎 AI 解决方案经亿级 DAU 的产品不断打磨,在 AI 写真方面拥有杰出能力。三星用户只需上传单张照片,就能把它转化为商务、3D 卡通、赛博朋克等多种不同风格的全新图片,实现图片的个性化应用。
三星 Galaxy AI 智绘人像功能
目前,该功能已在三星 Galaxy Z 系列新品折叠屏手机上线,用户可以随时进行头像风格转换,充分满足其多种多样的个性化需求。借助火山引擎在垂直场景中对模型及算法的持续优化,豆包大模型不断以技术驱动性价比提升,为用户带来更为出色的大模型应用体验。
字节跳动自研豆包大模型通过火山引擎对外提供服务,用更强模型、更低价格、更易落地的方案助力企业做好 AI 转型。未来,双方将携手落地更多大模型应用与能力,以高效精准的服务,持续优化手机用户的使用体验。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。