6月19日,北京国际图书博览会(BIBF)举办,作为国际第二大书展、亚洲最大书展,北京国际图书博览会每年吸引来自世界100多个国家和地区的2000多家海内外展商参展。本届博览会上,中外出版人及人工智能领域的专家学者,共同探讨了“人工智能+“大背景下出版行业的变革与重塑。
华为终端云服务阅读业务部部长在“出版与技术创新论坛“上发表了《技术赋能艺术——AI时代下的阅读新体验》演讲,展示了华为阅读用先进的AI技术全面提升用户阅读体验,打造了选、看、触、听一站式的智能体验,推动“AI+出版”成为行业发展的新趋势。
AI赋能,华为阅读为用户带来阅读新体验
在选书环节,华为阅读基于内容推荐大模型,通过AI智能分析用户行为习惯和偏好,准确识别用户的需求和使用场景,主动为用户推荐合适的书籍。
在看书体验上,华为阅读的精品书不仅还原了纸质书籍的多种质感,为每一本书籍配备了专属的书封、微动效、艺术美感字体以及精装排版,还能模拟出纸质书籍的翻页效果,甚至能够还原不同纸张的触感,让用户在手机上也能获得传统纸书的阅读体验。
华为阅读的AI阅读助手可以自动生成摘要,还能对小说中的复杂人物关系生成关系图谱,同时支持57种语言的翻译功能,智能交互体验提高了阅读的效率和体验感。
如果选择听书,华为阅读还通过AI技术提供了多种模拟真人的音色,同时还支持用户定制专属于自己的人声伴读,只需简单录制20句话,系统便能通过提取音色、声调等习惯生成专属的定制化语音包,让阅读变得更加个性化和亲切。
华为阅读与合作伙伴共建AI+出版内容生态
内容的丰富性和质量是数字阅读平台的核心竞争力,华为阅读持续与顶尖的出版社、内容平台以及有声、视听和知识付费平台展开广泛合作。目前华为阅读与掌阅、点众、阅文、新经典、中信出版社、上海译文出版社、磨铁、博集、人民文学等国内外多家知名出版机构和创作平台深度合作,带来涵盖40多种品类的百万精品图书资源。同时联合喜马拉雅、蜻蜓FM、口袋故事、帆书(原樊登读书)、腾讯动漫、快看等顶尖有声内容平台,提供丰富多彩的有声书内容。
华为阅读充分发挥多终端、全场景优势,通过大模型构建立体的用户画像,不仅可以精准制定新书宣发策略,帮助合作伙伴更有效地推广新书,还能通过分析平台内热门内容特征,反向赋能合作伙伴的内容筛选机制,帮助合作伙伴更精准地为华为阅读1.0亿+全球月活用户提供精品阅听内容,进一步激活合作伙伴的内容消费持续增长,构建AI+出版内容生态。
通过AI深度赋能,华为阅读不仅提升了用户的阅读体验,更在出版领域催生出了一种全新AI+出版业态。这种新业态以用户为中心,以科技创新为驱动,为出版行业的未来发展开辟了新的道路。
好文章,需要你的鼓励
这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。
香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。
这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。
这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。