近年来,以深度学习为代表的人工智能产业热潮开始席卷全球。为了紧跟行业发展趋势、推动人工智能科研与技术创新,中国石油大学(华东)启动了深度学习平台的建设,并使用浪潮深度学习管理平台AI Station 来搭建管理系统,在实现深度学习环境快速部署的同时,提高了对深度学习训练任务的管理能力,从而为深度学习技术创新搭建了一个优秀的平台。
拓展深度学习,满足计算力需求是燃眉之急
中国石油大学(华东)直属教育部,是国家"211工程"和"985工程优势学科创新平台"高校,2017年被确定为国家"双一流"建设高校。其中,计算机与通信学院(简称:计通学院)依托于学校雄厚的资源和实力,在计算机领域拥有不俗实力,学院也一直在进行深度学习的相关研究和人才培养。在人工智能产业爆发的背景下,学院紧跟行业发展方向,决定建设深度学习平台,方便学院研究人员和学生使用,加速学院在深度学习领域的研究。

浪潮助中国石油大学构建深度学习系统
业界普遍认为,深度学习能够发展迅速的三个要素包括强大的计算力、高效的算法以及足够大量的训练数据,其中,计算力的局限在深度学习的发展过程中体现的尤为明显:深度学习的核心是矩阵预算,也就是浮点运算。深度神经网络由于层数多、结构复杂、节点数多、训练数据集大等特点,训练过程所需的时间特别长,通常以数日、数周、甚至数月来计算,这对计算能力提出了极为苛刻的要求。
对于中国石油大学(华东)计通学院来说,其拥有雄厚的人才储备和技术研发能力,在深度学习相关算法及模型以及训练数据方面拥有巨大的优势,因此满足计算力的需求就成了学院在搭建深度学习平台过程中首要解决的问题。另一方面,学院作为研究与教学机构,并不希望投入过多的人力物力在深度学习环境的搭建上,而是更希望将精力用于深度学习算法和模型的研究与构建上,因此学院希望部署一套功能强大、方便易用的深度学习管理系统,来管理深度学习平台的资源以及训练任务。
开启智慧教育新模式 浪潮提供AI端到端解决方案
针对中国石油大学(华东)的需求,浪潮提供了面向人工智能的端到端解决方案。为提升平台的计算能力,浪潮在硬件选择上为学校推荐了全新应用优化的旗舰2U双路机架产品NF5280M4,搭配2块当时最新架构的GPU卡 NVIDIA Tesla P100,每块卡能够提供高达9.3万亿次的单精度计算能力。同时配置256G超大内存和高速SAS硬盘,用户做深度学习训练的GB级超大数据集可以全部直接加载到内存中,避免了数据集IO瓶颈,为用户带来极致性能。
在至关重要的深度学习管理系统部署方面,浪潮采用了最新的深度学习管理平台AI Station来构建整个深度学习平台。 AIStation 是一个深度学习集群和训练任务管理软件,可以快速部署深度学习环境,管理深度学习训练任务,为深度学习提供高效便利的运行环境。

浪潮深度学习管理平台AI Station界面
软件采用全容器化运行,应用与用户之间相互隔离;通过AI Station的模板创建容器,可以一键生成包含运行环境的容器,省去了用户自行部署深度学习环境的繁琐。AI Station还支持GPU动态调度、按需分配,最大化GPU的利用率,让用户完成更多的计算任务。中国石油大学(华东)通过AI Station可以管理可视化的训练任务、管理训练进程,及时侦测到模型训练问题,加速训练过程。
在浪潮AI Station的帮助下,中国石油大学(华东)极大的降低了深度学习平台的搭建时间,使得学校的师生能够在深度学习技术日新月异的背景下,快速追赶并引领深度学习的技术创新浪潮。AI Station还有效的提升了中国石油大学(华东)深度学习平台的运行效率,以最低的建设成本实现了最高的运行效率,让资源得到了充分利用。自深度学习平台搭建以来,中国石油大学(华东)在深度学习领域取得了多项重要的科研成果,夯实了在人工智能教育与科研领域的优势。
中国石油大学(华东)计通学院负责人表示:"浪潮AI Station表现让我们印象深刻,帮助我们快速搭建了高性能、使用运维简捷的深度学习平台。此外,浪潮的应用研发和调优专家多次亲自上门为我院调试AI Station及集群,实现了对我院原有设备的整合,其专业的服务和高超的专业技能让我们非常满意。希望此次双方的合作不仅能够为我院深度学习的科研提供强大助力,也对国内其他高校和科研机构深度学习平台的建立提供借鉴。"
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。