6月21日,华为开发者大会(HDC 2024)在东莞开幕,HarmonyOS NEXT正式面向开发者和先锋用户启动Beta。
此次大会还带来了鸿蒙生态下内容分发领域的最新成果。在HDC 2024“鸿蒙生态内容全场景全媒体分发论坛”上,华为浏览器带来了全面升级的“每日早报”,早报不仅可听可看,更为用户带来全场景浏览体验;而即将上线的“视界”栏目,以其独特的杂志化交互设计,瞬间激发用户探索欲。此外,还有AI技术赋能全场景+全旅程分发,让内容在鸿蒙生态无处不在。
全场景信息流,打造跨终端高品质浏览体验
通过分布式架构和视听多模态转换技术,华为浏览器打破设备边界,为用户提供视听兼备的跨端体验。全面升级的每日早报可看可听,早晨起床,通过唤醒华为智慧助手就能获得。每日早报推荐,不仅可以通过手机、手表、耳机、车机等全场景终端收听,重要资讯还可以通过自动摘要技术生成摘要,如同一名“随身资讯助手”,让用户实现高效浏览。目前,每日早报已支持6大垂域的内容,为用户提供多种选择。
基于意图框架和大模型技术,华为全场景信息流以华为浏览器为核心阵地,通过天气、负一屏、小艺建议、锁屏等多个入口,根据时间和场景,推荐符合用户当下场景需求的内容,从早晨起床,到通勤上班,到下班休息,完整贯穿用户一天的内容旅程。
“视界”即将上线,全新杂志交互体验激发用户探索
在论坛上,华为浏览器“视界”宣布即将上线。自适应布局技术带来全新杂志化交互体验,根据终端屏幕形态的不同,内容、排版都可以自适应呈现出更佳状态。例如同一篇旅游资讯,在HUAWEIPura 70上是上图下文的排版方式,在折叠屏上就会自适应屏幕变成文字环绕图片的排版方式,同时还加入微动效等智能技术,让资讯浏览更具有身临其境感。目前视界的精品内容还拓展了音乐、书评、影视解说等15个品类,给用户带来更丰富多元的资讯内容。此外,通过技术赋能艺术,全线产品可实现海报样式分享与回流,还有AI图像处理、AI辅创等技术帮助内容创作者极简创作、效率倍增,为内容繁荣带来了更多技术支持。
在互联网时代,华为浏览器不断升级,优化用户浏览体验,并通过技术赋能,助力内容创作者提升效率。未来,华为浏览器将持续携手伙伴繁荣鸿蒙生态数字内容,为用户打造更美好的数字世界。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。