关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群 原创

今天,第四届华为全联接大会HUAWEI CONNECT2019在上海世博展览馆举办。

关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群

今天,第四届华为全联接大会HUAWEI CONNECT2019在上海世博展览馆举办。契合本次大会主题“共创智能新高度”,华为提出构筑智能世界有两个关键技术,联接和计算。华为重点介绍了华为的四大计算战略。并发布了全球最快的AI训练集群Atlas900。

关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群

两年前华为发布愿景 希望构建一个万物互联的智能世界。智能世界有三个特征,万物感知、万物互联、万物智能,要支撑这样一个智能世界,有两个关键的技术需要持续创新和投资:联接和计算。这两个技术就像孪生兄弟一样,密不可分,协同发展。

过去华为联接谈得比较多,其实华为对计算的投资已有十年,在今天的大会上,华为重点分享一下华为在计算方面的洞察与战略。胡厚崑表示,智能时代计算是一个持续投入的能力。

计算成为人类能力的延伸,今天计算模式不断演讲,过去计算是对于规则的计算,智能时代是基于统计的计算。胡厚崑表示基于统计的计算,将会逐步成为计算的主流。5年后,基于统计的计算所占据的算力超过80%。

计算进入智能时代

在智能时代,计算有三个重要特征。

第一个特征,需要超强的算力。统计计算本身就是一种暴力计算,高度依赖于算力。举个例子,为了让计算机认识一只猫,就需要数百万图片的训练,这对算力的消耗是非常惊人的,面向自动驾驶、天文探索、气象预测等更复杂场景,对算力的需求将会更大。

第二个特征,计算和智能将会无处不在,而不仅仅是分布在中心侧。从中心节点的暴力计算,到边缘侧的专业计算,如基因测序,以及端侧的个性计算,如耳机、手机,一起构成了未来智能时代的计算形态。

第三个特征,端边云之间需要高效的协同。中心侧负责通用模型的计算,为端侧的个性化计算和边缘侧的专业化计算,提供协同支撑。

AI计算:全栈全场景AI解决方案全面落地

去年全联接大会上,华为发布了全栈全场景的AI解决方案,胡厚崑表示当时我们只交付了用于推理的昇腾310处理器和ModelArts应用开发平台。今年,我们的用于训练的昇腾处理器和AI计算框架MindSpore都已经发布了。至此,华为的全栈全场景AI解决方案全面落地,大家可以放心地和我们来开展合作。

关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群

发布Atlas 900:全球最快的AI训练集群

今天,我们将发布一款重量级的产品——Atlas 900,这款产品汇聚了华为几十年的技术积累,是当前全球最快的AI训练集群,由数千颗昇腾处理器组成。

关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群

在衡量AI计算能力的金标准ResNet-50模型训练中,Atlas 900只用了59.8秒就完成了训练,这比原来的世界记录还快了10秒。这是什么概念?相当于短跑冠军跑完终点,喝完一瓶水才等到第二名。

关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群

今天上午大会参会后记,有几点印象深刻,开场暖场视频聚焦科学家。华为回顾了蒸汽时代、电子时代、信息时代以及AI时代科学家的。从发现了电流的磁效应物理学家、化学家奥斯特,法拉第、英国物理学家、化学家迈克尔·法拉第、物理学家,数学家麦克斯韦到信息论创始人克劳德·香农,以及5G极化码(Polar Codes)发现者、土耳其埃尔达尔·阿里坎教授。

关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群

第二,解释了任正非关于统计学的重要性的认识。在智能时代,对于一些无法用确定规则描述的问题,比如说语音识别、图像识别、实时翻译等,基于规则的计算模式要解决这些问题就很吃力。

可喜的是,科学家们找到了一种新的计算模式,就是基于统计的计算模式,能够很好地解决以上提到的这些问题。并且,这种基于统计的计算模式,也成为了当前人工智能发展的关键基石。

第三,Atlas900超强的计算能力,现场一个计算测试印象深刻,从20万颗星星中检索出了相应特征的星体。而通过传统系统和人工工作,在星体识别和星体定位需要169天的工作量。用Atlas 900,只用10秒。

关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群

第四,聚焦计算,“有所为有所不为”。推出了业界唯一的覆盖“端、边、云”全场景达芬奇架构,聚焦计算和智能。不直接对外销售处理器,以云服务面向客户,以部件为主面向合作伙伴,优先支持合作伙伴发展整机。硬件开放:我们把服务器主板、AI模组和板卡等硬件开放给伙伴,帮助伙伴做好整机和解决方案。软件开源:我们把服务器操作系统、数据库、AI开发框架等软件开源,帮助伙伴做好商用版本,让软件开发更简单。使能应用开发和迁移:我们不做应用,但我们提供工具和团队,帮助伙伴更高效地做好应用开发和迁移。

第四,开放的心态,不仅会议开放现场,目测国外媒体超过200家,现场7种语言全球直播。在生态上也开放计算产业是个开放的产业,高度依赖于生态,需要全球的协作。华为将升级沃土计划,继续投入15亿美元,使开发者的规模扩大到500万人,使能全球合作伙伴发展应用及解决方案。

第五,华为现在还不错。

附上,华为全球最快AI训练集群Atlas 900的技术指标

9月18日,华为全联接2019(HUAWEI CONNECT)大会上,华为副董事长胡厚崑发布了Atlas 900 AI训练集群,以超强算力带给企业人工智能业务的极致体验。世界正从数字化向智能化转型,人工智能产业作为关键驱动力,面临自身的升级进化的挑战。华为在超强人工智能算力和大规模分布式AI训练集群两个方面加速智能化世界的转型。

Atlas 900 AI 训练集群介绍

在大型数据集上进行训练的神经网络架构涵盖从图像识别、自然语言处理、视频实时分析和智能推荐系统等各个方面,训练这些神经网络模型需要大量浮点计算能力。近年来单个AI处理器算力和训练方法上均取得了重大进步,但是在单一机器上,AI训练所需要的时间仍然长得不切实际,因此需要借助大规模分布式AI集群环境来提升神经网络训练系统的浮点计算能力。

此次发布的Atlas 900 AI训练集群由数千颗昇腾910 AI处理器互联构成,是当前全球最快的AI训练集群,代表了当今全球的算力巅峰。其总算力达到256P~1024P FLOPS @FP16,相当于50万台PC的计算能力。

Atlas 900 AI训练集群领先技术优势

AI算力业界领先

Atlas 900 AI训练集群采用业界单芯片算力最强的昇腾910 AI处理器,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片提供比业界高一倍的算力(256TFLOPS@FP16)。Atlas 900 AI训练集群将数千颗昇腾910 AI处理器互联,打造业界第一的算力集群。

昇腾910 AI处理器采用SoC设计,集成“AI算力、通用算力、高速大带宽I/O”,大幅度卸载Host CPU的数据预处理任务,充分提升训练效率。

最佳集群网络

Atlas 900 AI训练集群采用“HCCS、 PCIe 4.0、100G以太”三类高速互联方式,百TB全互联无阻塞专属参数同步网络,降低网络时延,梯度同步时延缩短10~70%。

在AI服务器内部,昇腾910 AI处理器之间通过HCCS高速总线互联;昇腾910 AI处理器和CPU之间以最新的PCIe 4.0(速率16Gb/s)技术互联,其速率是业界主流采用的PCIe 3.0(8.0Gb/s)技术的两倍,使得数据传输更加快速和高效。在集群层面,采用面向数据中心的CloudEngine 8800系列交换机,提供单端口100Gbps的交换速率,将集群内的所有AI服务器接入高速交换网络。

独创iLossless 智能无损交换算法,对集群内的网络流量进行实时的学习训练,实现网络0丢包与E2E μs级时延。

系统级调优

Atlas 900 AI训练集群通过华为集合通信库和作业调度平台,整合HCCS、 PCIe 4.0 和100G RoCE三种高速接口,充分释放昇腾910 AI处理器的强大性能。

华为集合通信库提供训练网络所需的分布式并行库,通信库+网络拓扑+训练算法进行系统级调优,实现集群线性度>80%,极大提升了作业调度效率。

极致散热系统

传统数据中心多以风冷技术对设备进行散热,但在人工智能时代传统数据中心却面临非常大的挑战。高功耗器件比如CPU和AI芯片带来更大的热岛效应要求更高效的冷却方式。液冷技术可以满足数据中心高功率、高密部署、低PUE的超高需求。

Atlas 900 AI训练集群采用全液冷方案,创新性设计业界最强柜级密闭绝热技术,支撑>95%液冷占比。单机柜支持高达50kW超高散热功耗,实现PUE<1.1的极致数据中心能源效率。

另外,在空间节省方面,与8kW风冷机柜相比,节省机房空间79%。极致的液冷散热技术满足了高功率、高密设备部署、低PUE的需求,极大地降低了客户的TCO。

Atlas 900AI训练集群领先的Benchmark指标

华为已在华为云上部署了一个Atlas 900 AI训练集群,集群规模为1024颗昇腾910 AI处理器。基于当前最典型的ResNet-50 v1.5模型”和“ ImageNet-1k数据集”,Atlas 900AI训练集群只需59.8秒就可完成训练,排名全球第一。

“ ImageNet-1k数据集”包含128万张图片,精度为75.9%,在同等精度下,其他两家业界主流厂家测试成绩分别是70.2s和76.8s,Atlas 900 AI训练集群比第2名快15%。

关键时刻做减法,HUAWEI CONNECT上聚焦计算,发布全球最快AI训练集群 

图2  基于“ResNet-50 v1.5模型”和“ ImageNet-1k数据集”的测试数据

 Atlas 900 AI 集群适用场景

Atlas 900 AI集群主要为大型数据集神经网络训练提供超强算力,可广泛应用于科学研究与商业创新,让研究人员更快地进行图像、视频和语音等AI模型训练,让人类更高效地探索宇宙奥秘、预测天气、勘探石油和加速自动驾驶的商用进程。

Atlas 900 AI集群也可以提供云服务,以云的方式提供充裕的、经济的算力资源,简单易用、高效率、全流程的AI平台,为客户带来极致体验的“易获取、用得起、方便用”的普惠AI算力。

来源:至顶网存储频道

0赞

好文章,需要你的鼓励

2019

09/18

10:14

分享

点赞

邮件订阅
白皮书