4月25日,鲲鹏开发者创享日江苏站暨2024数字技术创新应用峰会顺利举行。活动当日,学术大咖、技术大牛齐聚南京,论道多样性算力、鲲鹏原生开发、高性能计算等关键技术,为现场的600余位开发者带来一场技术盛宴。这里就将本场创享日的技术点进行一次干货盘点。
院士大咖领衔:多样性算力成为主流,全栈自主创新是关键
南京大学国家特聘教授、欧洲科学院院士,IEEE Fellow 杨鲲在创享日上谈到,算力需求已经发生结构性的变化,多元化的算力正在成为主流,基于ARM架构的鲲鹏是构建计算平台强有力的使能者,并且实现从底层硬件、操作系统、数据库、工具链的全栈自主创新,当前鲲鹏计算产业发展成绩瞩目。要想跑在别人前面,就需要坚持自主创新。杨鲲教授表示,希望更多的开发者深度参与,积极贡献自己的聪明才智,助力鲲鹏计算的创新发展,共同为推动中国的计算产业不断前行增添一份力量。
南京大学国家特聘教授、欧洲科学院院士,IEEE Fellow杨鲲
技术大牛:开发者工具重磅发布 鲲鹏原生引航
为了更好的支持开发者不断探索创新,华为计算研究部HPC首席技术专家丁肇辉博士在创享日现场重磅发布了系列开发者工具,推出了全新的HPCKit,整合了数学库、求解器、通信库和编译器的新版本;DevKit发布了性能工具命令行版,以及Roofline和IO分析等新特性;DonauKit中调度器和Portal版本全新亮相,并即将支持高分辨率、高帧率的远程3D可视化,希望广大开发者使用这些工具基于鲲鹏进行更好的探索创新。同时发展计算产业仅靠技术创新还不够,为了能够全力支撑鲲鹏开发者从学习、能力成长到持续贡献,鲲鹏社区和鲲鹏开发者运营活动将全面升级。全新的鲲鹏社区将在5月中旬上线,鲲鹏开发者活动也将围绕旗舰、精准、赛事三大维度全面展开,以创享日江苏站为起点,欢迎开发者朋友持续关注与加入!
华为计算研究部HPC首席技术专家丁肇辉博士
今年,原生开发是鲲鹏开发者的关键发力点,华为鲲鹏生态技术总监祁磊在创享日上对鲲鹏原生开发愿景进行了介绍。他谈到,原生开发就是通过提供一系列的流水线工具,使得开发者在鲲鹏平台上的开发效率更高,产品竞争力也得到大幅提升。计划通过三年左右的原生开发阶段,未来能够逐步迈入生态引领的状态,联合伙伴共同努力,使能鲲鹏成为IT技术栈发展的主创新引擎,成为伙伴软件创新的主选技术平台。
华为鲲鹏生态技术总监祁磊
以技会友切磋论道 鲲鹏技术汇全新登场
当天下午,鲲鹏技术汇同步举办。华为计算研究部HPC首席技术专家丁肇辉、江苏电信IBOC技术支撑部容器平台负责人仇伶伟、南京信息工程大学副教授秦育婧、南京信息工程大学教授博导卢楚翰四位专家面对面交流,深度探讨鲲鹏原生开发、深度调优等实际过程中遇到的技术难点、解决方法和心得体会,引起在场和线上开发者的广泛共鸣。技术汇的视频后续将在鲲鹏社区进行回放,这也将成为开发者学习赋能的高质量“直播课”。
应用案例分享 共话鲲鹏技术创新实践
本次创享日活动,来自政务、金融、电力、教育医疗等领域的开发者也积极分享了最新技术实践。
苏州银行信息科技部总经理助理杜玉文谈到,2022年苏州银行全面引入华为全栈可信云,到了2023年自主创新的软硬件投入比例从2022年15%已经提升到30%以上。未来,将持续加强可信创新深度和精度上的投入,为同业提供自主创新相关经验和参考;国网江苏信通公司邹昊东表示,江苏公司基于鲲鹏生态搭建计算平台和存储平台,构建“湖仓一体、流批一体”的大数据平台,为企业级实时量测中心提供高性能的算力和存储底座,从而为分布式能源出力精准预测和智能配网抢修指挥等应用提供精准、实时的数据支撑服务;恒生电子light云事业部总经理王佳玮表示,未来,恒生电子除了鲲鹏原生开发之外,还会在昇腾、人工智能、大模型等领域探讨深化更多合作方向,希望能够携手华为,把更好的服务给到客户。
在新技术、新概念层出不穷,新产品和新消息奔涌而来的当下,开发者们都在关注什么样的议题,鲲鹏开发者创享日究竟有何魅力?学术界的理论研究、企业层面的应用案例、数字产业发展的热点议题都在这里一一精彩呈现。学术把脉、技术论道、头脑风暴,可以说,鲲鹏开发者创享日江苏站真正打造了一场开发者的技术盛宴。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。