英特尔公司高级副总裁兼加速计算系统和图形事业部总经理 Raja M. Koduri
英特尔推出两大x86 CPU内核、两大数据中心SoC、两款独立GPU,以及变革性的客户端多核性能混合架构
架构是硬件和软件的“炼金术”。它融合特定计算引擎所需的先进晶体管,通过领先的封装技术将它们连接,集成高带宽和低功耗缓存,在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连,并确保所有软件无缝地加速。披露面向新产品的架构创新,是英特尔架构师在每年架构日上的期许,今年举办的第三届英特尔架构日令人十分兴奋。
今天,英特尔公布了英特尔®架构在近年来重大的改变和创新。 这包括:第一次深入介绍了英特尔首个性能混合架构Alder Lake,其搭载两款新一代x86内核以及智能英特尔®硬件线程调度器;英特尔全新引领行业标准的数据中心架构Sapphire Rapids,其搭载全新的性能核以及多种加速器引擎;英特尔全新的独立游戏图形处理器(GPU)架构;英特尔全新的基础设施处理器(IPU)以及超凡的数据中心GPU架构Ponte Vecchio,其具备英特尔迄今为止最高的计算密度。
架构突破为英特尔的下一波领先产品奠定基础,率先推出的是Alder Lake。随着从台式机到数据中心的工作负载愈发庞大、愈发复杂、愈发多样,英特尔在架构日上展示的突破展现了架构将如何满足对更高计算性能的需求。
架构师们奋力而行,结合英特尔独特、丰富的标量、矢量、矩阵和空间计算引擎,打造混合计算架构,为客户的高需求工作负载提供非线性处理能力。
能效核:一个高度可扩展的x86微架构,它能满足客户从低功耗移动应用到多核微服务的全方位计算需求。对比英特尔迄今为止最多产的CPU微架构——Skylake,能效核可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。1就吞吐量性能而言,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。1
性能核:它不仅是英特尔迄今为止性能最高的CPU内核,而且在CPU架构性能方面实现阶梯式提升,推动未来十年的计算发展。它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。它还帮助支持大数据集和大型代码体积的应用程序。与第11代酷睿架构(Cypress Cove内核)相比,相同频率下,性能核在一系列工作负载上平均提升了约19%。1
针对数据中心处理器和机器学习的发展趋势,性能核提供了专用硬件,包括新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,以获得数量级的性能——AI加速提升约8倍。这是为软件易用性而设计,利用了x86编程模型。
英特尔硬件线程调度器:这是英特尔开发的独特调度方法,旨在确保将能效核和性能核无缝衔接在一起,从开始就动态、智能地分配工作负载,从而优化系统以在真实场景中实现更高的性能和效率。智能直接置于内核,英特尔硬件线程调度器与操作系统无缝配合,在合适的时间把合适的线程分配给合适的内核。
Alder Lake:它重构了多核架构,是英特尔首个搭载全新英特尔硬件线程调度器的性能混合架构。它是英特尔最智能的客户端SoC架构,结合了能效核和性能核,适用于从移动端到台式机的产品,并通过多种业界领先的I/O和内存而引领行业变革。基于Alder Lake的产品将在今年开始出货。
Xe HPG和Alchemist SoC:一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧友级别的性能。Xe HPG微架构采用新的Xe内核,聚焦计算、可编程、可扩展,并全面支持DirectX 12 Ultimate。Xe内核中的全新矩阵引擎(Xe Matrix eXtensions,XMX)能够加速AI工作负载,比如XeSS,是一项全新升频技术(upscaling technology),可以实现高性能、高保真游戏体验。基于Xe HPG的Alchemist SoC(之前代号为DG2)将于2022年第一季度上市,并采用新的品牌名英特尔®锐炫™。
Sapphire Rapids:它结合了英特尔的性能核与全新加速器引擎,树立了下一代数据中心处理器的标准。Sapphire Rapids的核心是一个模块化的分区SoC架构,得益于英特尔的EMIB多晶片互连封装技术和先进网格架构,它具有显著的可扩展性,同时仍保持单晶片CPU接口的优势。
基础设施处理器(IPU):Mount Evans是英特尔首款专用ASIC IPU,以及全新的基于FPGA的IPU参考平台——Oak Springs Canyon。通过基于英特尔IPU的架构,云服务提供商(CSPs)可以通过把基础设施任务从CPU转移到IPU,从而让数据中心收益更大化。把基础设施任务转移到IPU,能够让云服务提供商(CSPs)可以把所有的服务器CPU租给客户。
Xe HPC, Ponte Vecchio:Ponte Vecchio是英特尔迄今为止最复杂的SoC,也是英特尔践行IDM 2.0战略的绝佳示例,它采用多种先进的半导体制程工艺、英特尔变革性的EMIB技术以及Foveros 3D封装技术。这是英特尔实现堪比登月难度创新后的一款产品,它包含1000亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。在架构日上,英特尔展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。1英特尔的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过 2 TBps的连接带宽。如Xe架构一样,Ponte Vecchio将由oneAPI支持,后者是英特尔一个开放、基于标准、跨架构、跨供应商的统一软件堆栈。
回望过去一年,科技处于所有人如何沟通、工作、娱乐和应对新冠肺炎疫情的核心。事实证明,强大的计算能力至关重要。展望未来,我们面临庞大的算力需求,预计到2025年将是1000x(千倍级)的提升,而四年内增加1,000倍相当于摩尔定律的5次方。
英特尔CEO帕特·基辛格也是一位架构师,他说:“我们面临艰巨的计算挑战,一定要通过变革性的架构和平台来解决……正是英特尔才华横溢的架构师和工程师们,让这些技术‘魔法’得以成真。”
世界正依赖架构师和工程师来解决艰巨无比的计算问题,以造福人类。这就是为什么英特尔的战略和执行不断加速以满足所需,疾步前行。
好文章,需要你的鼓励
随着AI模型参数达到数十亿甚至万亿级别,工程团队面临内存约束和计算负担等共同挑战。新兴技术正在帮助解决这些问题:输入和数据压缩技术可将模型压缩50-60%;稀疏性方法通过关注重要区域节省资源;调整上下文窗口减少系统资源消耗;动态模型和强推理系统通过自学习优化性能;扩散模型通过噪声分析生成新结果;边缘计算将数据处理转移到网络端点设备。这些创新方案为构建更高效的AI架构提供了可行路径。
清华大学团队开发了CAMS智能框架,这是首个将城市知识大模型与智能体技术结合的人类移动模拟系统。该系统仅需用户基本信息就能在真实城市中生成逼真的日常轨迹,通过三个核心模块实现了个体行为模式提取、城市空间知识生成和轨迹优化。实验表明CAMS在多项指标上显著优于现有方法,为城市规划、交通管理等领域提供了强大工具。
Meta以143亿美元投资Scale AI,获得49%股份,这是该公司在AI竞赛中最重要的战略举措。该交易解决了Meta在AI发展中面临的核心挑战:获取高质量训练数据。Scale AI创始人王亚历山大将加入Meta领导新的超级智能研究实验室。此次投资使Meta获得了Scale AI在全球的数据标注服务,包括图像、文本和视频处理能力,同时限制了竞争对手的数据获取渠道。
MIT研究团队发现了一个颠覆性的AI训练方法:那些通常被丢弃的模糊、失真的"垃圾"图片,竟然能够训练出比传统方法更优秀的AI模型。他们开发的Ambient Diffusion Omni框架通过智能识别何时使用何种质量的数据,不仅在ImageNet等权威测试中创造新纪录,还为解决AI发展的数据瓶颈问题开辟了全新道路。