华为开发者大会2024(HDC 2024)上,随着HarmonyOS NEXT的发布,华为阅读为用户带来了全新体验。基于华为大模型能力的飞速提升,华为阅读正式进入了“AI+阅读”时代,先进的AI助读能力上线后将为用户智能生成书摘、翻译等,提升阅读的效率和乐趣。华为阅读平台AI能力也将赋能精品书批量制作,为合作伙伴打造高效精品书制作平台。
多模态助手:与时俱进,AI助读
华为阅读在HDC 2024上迎来了重大升级,搭载的全新阅读器引擎带来了更丝滑的阅读感受,即将上线的AI能力帮助用户从选书到读书全流程智能化。
选书环节,多模态的书籍介绍涵盖了“大咖讲书”、“好书5分钟”等视频、图文介绍,辅助用户快速选书;阅读环节,AI智能书摘可以快速提炼书籍核心信息,并且还能将阅读心得分享给朋友,解决了读书想要分享又不擅长总结的用户的实际困难。对于人物关系复杂的小说来说,AI关系图谱可以自动帮用户梳理并生成关系图,一眼就能清晰了解复杂的人物关系。
如果想用其他语言阅读书籍,华为阅读还支持AI全文翻译,目前支持57种语言互译。
想听书的用户,也可以在AI多角色朗读中选择自己需要的音色,精品音色可以精确模拟真人阅读的语气、情感,带给用户堪比真人阅读的听书体验,用户还可以在华为阅读定制自己专属的音色,满足个性化听书需求。
精品书升级:AI快速制作精品书
华为阅读也在本次大会上推出了精品书AI制作服务,该功能上线后,将为合作伙伴降低精品书的制作成本。通过对书籍内容的要素识别、元素识别,AI结合自身的理解能力自动匹配适合的模板,可以快速批量生成精品书,大大缩短了一本精品书的制作周期,为合作伙伴带来了更加简便的精品书制作流程。合作伙伴可以批量选择书籍,通过华为阅读的精品书AI制作服务批量生成精品书,为用户带来高品质的书籍排版体验。
智能分发:合时宜的全场景推荐
华为阅读基于HarmonyOS NEXT的意图框架和内容推荐模型,通过AI智能分析,准确识别用户的需求和使用场景,通过负一屏、桌面卡片、全局搜索、锁屏主题、智慧助手等多个入口,主动为用户推荐合时宜的书籍。
同时,华为的全场景优势也为华为阅读打破了设备边界,无论手机、平板、只要登陆了同一个华为账号,华为阅读都可以在不同设备上根据所处场景,为用户推荐适合当下场景的书籍。
随着HarmonyOS NEXT的正式发布,鸿蒙原生应用也进入了新的时代,华为阅读借助华为的AI大模型能力,也将持续为用户带来更优质的数字阅读体验。
好文章,需要你的鼓励
这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。
香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。
这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。
这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。