近日,国际高分辨率海洋与气候预测研讨会在青岛海洋国家实验室)顺利举行。浪潮海洋领域高性能计算应用专家受邀参会并做了《E级超算高分辨率海洋模式的优化策略》的报告,现场得到NCAR在内的国内外专家高度关注及好评。海洋国家实验室是目前唯一正式获批试点运行的国家实验室,其超级计算机由浪潮设计构建,峰值性能超千万亿次,是我国海洋领域最快超级计算机,并正在规划升级到百亿亿次E级超算。高分辨率海洋与气候预测可以较精细的探测海洋潮汐、海浪等情况,相当于给海洋做"CT",可以帮助人类了解神秘海洋。

海洋国家实验室于2013年获得科技部正式批复,由国家部委、山东省、青岛市共同建设,定位于围绕国家海洋发展战略,开展基础研究和前沿技术研究,依托青岛、服务全国、面向世界建设国际一流的综合性海洋科技研究中心和开放式协同创新平台。为更好的推进各项海洋研究任务的开展,海洋国家实验室启动了高性能科学计算与系统仿真、海洋药物筛选、海洋科考船队等大型平台和海上试验场等大型设施建设。

海洋国家实验室
高分辨海洋与气候预报对计算力的需求
高分辨率的海洋预报可以为海洋安全、海上活动、防灾减灾等提供更加科学的决策依据。同时也对超级计算的能力构成巨大挑战。目前,海洋气候分析模式大多数是在百公里级以上。高分辨海洋预报模拟会让预测的准确性大幅度提升,预测的结果将更加细致,但相对的计算量也会增加数百乃至上千倍。

清华大学地球系统科学系教授林岩銮表示,在海洋与气候预测领域,提高水平分辨率能解决非常多目前到达瓶颈的问题。推动海气耦合系统模式发展,建立模型的过程中,需要对每个海洋网格增强像素化,这样才能更好的解析中小尺度的气候变化过程。但是水平分辨率提高后,计算量级的增长也非常快,海洋国家实验室的千万亿次超算系统对提高观测水平,应对气候灾害,提升减灾防灾能力具有十分重要的现实意义。
给海洋做"CT"的超算长啥样?
高速均衡设计理念:浪潮为海洋国家实验室设计构建的超级计算机遵循均衡设计的理念,具有"四个高": 高计算性能、高速存储、高速互联、高效水冷。计算上采用浪潮超高密度刀片服务器I8000,8U空间内容纳20个双路计算节点,是业界最高密度的刀片服务器;采用了最先进的100Gb OPA高速网络技术;存储方面选用高效稳定的高速并行存储系统,按需扩展,实测总带宽超过40GB/s;制冷选择业界先进的LCP液冷技术,系统整体PUE低于1.4。
先进高速网络技术:海洋国家实验室超算是中国首套大规模Intel Omni-Path 高速网络的集群。浪潮是Intel在中国最重要的HPC合作伙伴,双方深度合作为采用100Gbps网络的大规模超算构建优化提供了标杆示范。
高效率管理调度:海洋国家实验室超算是一个多用户,多应用,多领域的平台,在其上运行的软件多达近百款,其中很多都是用户自研的应用。浪潮提供了智能的集群管理软件Cluster Engine,依靠浪潮的研发实力,支持为用户进行定制化开发,适配用户的应用,构建了一个易用、高效、稳定的超算平台。

领先应用调优服务:浪潮在高性能计算领域拥有深厚积累,拥有一支专业的高性能应用研究分析团队,通过浪潮独有的天眼应用特征分析软件,为海洋国家实验室提供了应用调优服务,使用户的应用运行效率达到最优,得到了用户的高度好评。
目前,浪潮已经积累了十余个行业的三百余款软件的应用特征,建立了六十余款典型应用基准算例库,能够提供定制化解决方案和专业的应用调优服务。浪潮还拥有国内唯一具备CPU/GPU/MIC的专业软件开发/调优/培训/咨询团队,并且分别与NVIDIA、Intel成立了联合实验室,在GPU/MIC应用开发移植调优方面具有深厚的功力。
未来,高性能科学计算与系统仿真平台将围绕国家海洋科技创新发展的重大应用需求,全面将国家互联网+、国家大数据、国家人工智能2.0等重大战略计划融合到海洋领域中,而海洋国家实验室所布局的海洋动力与气候、海洋药物与生物制药等学科,都对E级超算具有强烈的学科自身计算需求和学科之间的重大协同计算需求。为此,海洋国家实验室还将与浪潮共同推进共同规划建设E级超级计算机的建设,全力打造海洋领域的国产化超算大科学装置。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。