8月15日,“2024火山引擎 AI 创新巡展”将来到“鹭城”厦门,联合区域企业和专家,展示大模型能力与落地应用路径,为企业凭借 AI 实现业务创新提供有力参考。
此次火山引擎“AI 创新巡展”系列活动落地成都、厦门、上海、天津和深圳等城市。7月25日举办的成都站公布了豆包大模型最新进展:截至7月,豆包大模型日均 tokens 使用量已突破5,000亿,平均每家企业客户日均 tokens 使用量较5月15日模型发布时期增长了22倍。豆包·图生图模型在会上首度亮相,多个豆包垂类模型、火山方舟、扣子专业版、HiAgent 平台等多款产品和云基础设施也迎来了最新升级。
本次厦门站活动中,火山引擎将全面展示豆包大模型经日均5,000亿 tokens 持续打磨出的更强模型能力。从应用角度出发,来自果集、宁德时代、美图之家、众联世纪等客户企业的嘉宾,将于巡展现场讲述如何借助豆包大模型、HiAgent、AI 全栈云、火山方舟、扣子专业版等产品及解决方案,更好地将 AI 结合到业务之中。
好文章,需要你的鼓励
亚利桑那州立大学的研究团队开发了RefEdit,这是一种新型图像编辑AI系统,能够准确理解和处理指代表达(如"中间那个人"、"右边的猫")。通过创建RefEdit-Bench基准测试,研究者们证明现有模型在多物体场景中表现不佳。他们设计了一种创新的数据生成流程,仅用2万样本就训练出的RefEdit模型超越了使用数百万样本训练的大型模型。这一突破使AI图像编辑在复杂场景中更加精确和实用。
这项研究提出了Critique-GRPO,一种创新的在线强化学习框架,将自然语言批评与数字反馈相结合,克服了传统仅用数字反馈的三大局限:性能瓶颈、自我反思效果有限和顽固性失败。实验表明,该方法使大语言模型能够从错误中学习并改进,在八项数学和通用推理任务中,将Qwen2.5-7B和Qwen3-8B模型的平均通过率分别提高了约4.5%和5%,超越了包括那些引入专家示范的方法。研究还揭示,高熵探索和长回答并不总是最有效的学习方式,质量更重要。这一方法为大语言模型的自我提升能力开辟了新路径。
这篇研究介绍了"量化LLM评价者",一个创新框架,能使大型语言模型(LLM)在评估其他AI输出时更接近人类判断。由麻省理工和Adobe联合研发的这一方法,将评估过程分为两个阶段:先让LLM生成文本评价,再用轻量级机器学习模型将这些评价转化为更准确的数值评分。研究提出了四种评价者模型,适用于不同评估场景,实验表明它们不仅能显著提高评分准确性,还比传统微调方法更节省计算资源。这一框架特别适合人类反馈有限的场景,为AI评估领域开辟了高效且可解释的新路径。
这项研究由IDEA、华南理工大学和北京大学联合开发的Rex-Thinker系统,通过模仿人类的链式思考方式来解决物体指代问题。与传统直接输出边界框的方法不同,它采用规划-行动-总结的三步骤推理,使AI能像人类一样逐步分析图像中的候选物体,并在找不到匹配物体时拒绝作答。通过构建90,824样本的HumanRef-CoT数据集和两阶段训练方法,系统在精度、可解释性和泛化能力上均取得了显著进步。