2021年笔记本电脑cpu性能天梯图 2021笔记本处理器排行榜天梯图

35白皮书 2023-01-13

GPU是Graphics Processing Unit(图形处理器)的简称它是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。图形处理器是NVIDIA公司(NVIDIA)在1999年8月发表NVIDIA GeForce 256(GeForce 256)绘图处理芯片时首先提出的概念在此之前电脑中处理影像输出的显示芯片通常很少被视为是一个独立的运算单元。而对手冶天科技(ATi)亦提出视觉处理器(Visual Processing Unit)概念。图形处理器使显卡减少对中央处理器(CPU)的依赖并分担部分原本是由中央处理器所担当的工作尤其是在进行三维绘图运算时功效更加明显。图形处理器所采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等。

图形处理器可单独与专用电路板以及附属组件组成显卡或单独一片芯片直接内嵌入到主板上或者内置于主板的北桥芯片中现在也有内置于CPU上组成SoC的。个人电脑领域中在2007年90%以上的新型台式机和笔记本电脑拥有嵌入式绘图芯片但是在性能上往往低于不少独立显卡。但2009年以后AMD和英特尔都各自大力发展内置于中央处理器内的高性能集成式图形处理核心它们的性能在2012年时已经胜于那些低端独立显卡这使得不少低端的独立显卡逐渐失去市场需求两大个人电脑图形处理器研发巨头中AMD以AMD APU产品线取代旗下大部分的低端独立显示核心产品线。而在手持设备领域上随着一些如平板电脑等设备对图形处理能力的需求越来越高不少厂商像是高通(Qualcomm)、Imagination、ARM、NVIDIA等也在这个领域“大显身手”。

GPU不同于传统的CPU如Intel i5或i7处理器其内核数量较少专为通用计算而设计。相反GPU是一种特殊类型的处理器具有数百或数千个内核经过优化可并行运行大量计算。虽然GPU在游戏中以3D渲染而闻名但它们对运行分析、深度学习和机器学习算法尤其有用。GPU允许某些计算比传统CPU上运行相同的计算速度快10倍至100倍。

本期的智能内参我们推荐方正证券的报告《GPU研究框架》从GPU的底层技术、产业链发展情况和国产GPU的自主之路三方面全面解析GPU及其产业。

本期内参来源:方正证券

原标题:

《GPU研究框架》

作者:陈杭 等

一、GPU:专用计算时代的“画师”

GPU(graphics processing unit)图形处理器又称显示核心、视觉处理器、显示芯片是一种在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。GPU通常包括图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源管理单元、视频管理单元、显示界面。GPU的出现使计算机减少了对CPU的依赖并解放了部分原本CPU的工作。在3D图形处理时GPU采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等而硬件T&L技术可以说是GPU的标志。

GPU的内部组成部分

GPU核心及PCB板

GPU的微架构(Micro Architecture)是一种给定的指令集和图形函数集合在处理器中执行的方法。图形函数主要用于绘制各种图形所需要的运算。当前和像素、光影处理、3D坐标变换等相关运算由GPU硬件加速来实现。相同的指令集和图形函数集合可以在不同的微架构中执行但实施的目的和效果可能不同。的微架构对GPU性能和效能的提升发挥着至关重要的作用GPU体系是GPU微架构和图形API的集合。

以目前最新的英伟达安培微架构为例GPU微架构的运算部份由流处理器(Stream ProcessorSP)、纹理单元(Texture mapping unit, TMU)、张量单元(Tensor Core)、光线追踪单元(RT Cores)、光栅化处理单元(ROPs)组成。这些运算单元中张量单元光线追踪单元由NVIDIA在伏特/图灵微架构引入。

除了上述运算单元外GPU的微架构还包含L0/L1操作缓存、Warp调度器、分配单元(Dispatch Unit)、寄存器堆(register file)、特殊功能单元(Special function unitSFU)、存取单元、显卡互联单元(NV Link)、PCIe总线接口、L2缓存、二代高位宽显存(HBM2)等接口。

英伟达安培内核概览

英伟达安培内核“SM”单元

GPU的流处理器单元是NVIDIA对其统一架构GPU内通用标量着色器的命名。SP单元是全新的全能渲染单元是继Pixel Pipelines(像素管线)和Vertex Pipelines(顶点管线)之后新一代的显卡渲染技术指标。SP单元既可以完成VS(Vertex Shader顶点着色器)运算也可以完成PS(Pixel Shader像素着色器)运算而且可以根据需要组成任意VS/PS比例从而给开发者更广阔的发挥空间。

流处理器单元出现于DirectX 10时代的G80核心的Nvidia GeForce 8800GTX显卡是显卡发展史上一次重大的革新。之后AMD/ATI的显卡也引入了这一概念但是流处理器在横向和纵向都不可类比大量的流处理器是GPU性能强劲的必要非充分条件。

纹理映射单元(TMU)作为GPU的部件它能够对二进制图像旋转、缩放、扭曲然后将其作为纹理放置到给定3D模型的任意平面这个过程称为纹理映射。纹理映射单元不可简单跨平台横向比较大量的纹理映射单元是GPU性能强劲的必要非充分条件。

光栅化处理单元(ROPs)主要负责游戏中的光线和反射运算兼顾AA、高分辨率、烟雾、火焰等效果。游戏里的抗锯齿和光影效果越厉害对ROPs的性能要求就越高否则可能导致帧数的急剧下降。NVIDIA的ROPs单元是和流处理器进行捆绑的二者同比例增减。在AMD GPU中ROPs单元和流处理器单元没有直接捆绑关系。

英伟达安培内核SP、ROPs、TMU拆解

英伟达RTX 3080 GPU-Z参数

消费GPU的实时光线追踪在2018年由英伟达的“图灵”GPU引入光追单元(RT Cores)在此过程中发挥着决定性的作用。图灵GPU的光追单元支持边界体积层次加速实时阴影、环境光、照明和反射光追单元和光栅单元可以协同工作进一步提高帧数和阴影的真实感。

光追单元在英伟达的RTX光线追踪技术、微软DXR API、英伟达Optix API和Vulkan光追API的支持下可以充分发挥性能。拥有68个光追单元的RTX2080Ti在光线处理性能上较无光追单元的GTX1080Ti强10倍。

张量单元(Tensor Core)在2017年由英伟达的“伏特”GPU中被引入。张量单元主要用于实时深度学习服务于人工智能大型矩阵运算和深度学习超级采样(DLSS)可以带来惊人的游戏和专业图像显示同时提供基于云系统的快速人工智能。

英伟达RTX2080Ti张量单元算力

英伟达图灵GPU光追单元运作流程

英伟达图灵GPU张量单元提供多精度AI

GPU的API(Application Programming Interface)应用程序接口发挥着连接应用程序和显卡驱动的桥梁作用。不过随着系统优化的深入API也可以直接统筹管理语言、显卡驱动和底层汇编语言。

3D API能够让编程人员所设计的3D软件只需调动其API内的程序让API自动和硬件的驱动程序沟通启动3D芯片内强大的3D图形处理功能从而大幅地提高3D程序的设计效率。同样的GPU厂家也可以根据API标准来设计GPU芯片以达到在API调用硬件资源时的更优化获得更好的性能。3D API可以实现不同厂家的硬件、软件更大范围兼容。如果没有API那么开发人员必须对不同的硬件进行一对一的编码这样会带来大量的软件适配问题和编码成本。

目前GPU API可以分为2大阵营和若干其他类。2大阵营分别是微软的DirectX标准和KhronosGroup标准其他类包括苹果的Metal API、AMD的Mantle(地幔)API、英特尔的One API等。

微软DirectX和Khronos Group API组合对比

DirectX是Direct eXtension的简称作为一种API是由微软公司创建的多媒体编程接口。DirectX可以让以Windows为平台的游戏或多媒体程序获得更高的执行效率加强3D图形和声音效果并提供设计人员一个共同的硬件驱动标准让游戏开发者不必为每一品牌的硬件来写不同的驱动程序也降低用户安装及设置硬件的复杂度。DirectX已被广泛使用于Windows操作系统和Xbox主机的电子游戏开发。

OpenGL是Open Graphics Library的简称是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(API)相比DirectX更加开放。这个接口由近350个不同的函数调用组成用来绘制从简单的二维图形到复杂的三维景象。OpenGL常用于CAD、虚拟现实、科学可视化程序和电子游戏开发。

正是由于OpenGL的开放所以它可以被运行在Windows、MacOS、Linux、安卓、iOS等多个操作系统上学习门槛也比DirectX更低。但是效率低是OpenGL的主要缺点。

DirectX和OpenGL特点对比

Metal是Apple在2014年创建的接近底层的低开销的硬件加速3D图形和计算着色器API。Metal在iOS 8中亮相。Metal在一个API中结合了类似于OpenGL和OpenCL的功能。它旨在通过为iOSiPadOSmacOS和tvOS上的应用程序提供对GPU硬件的底层访问来提高性能。相较于OpenGL ESMetal减少了10倍的代码拥挤提供了更好的解决方案并将会在苹果设备中取代OpenGL。Metal也支持英特尔HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C编程语言调用的面向对象的API。GPU的全部操作是通过Metal着色语言控制的。

2017年苹果推出了Metal的升级版Metal2兼容前代Metal硬件支持iOS11MacOS和tvOS11。Metal2可以在Xcode中更有效地进行配置和调试加快机器学习速度降低CPU工作量在MacOS上支持VR充分发挥A11 GPU的特性。

Vulkan是一种低开销跨平台的3D图像和计算API。Vulkan面向跨所有平台的高性能实时3D图形应用程序如视频游戏和交互式媒体。与OpenGLDirect3D 11和Metal相比Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了较低的CPU使用外Vulkan还旨在使开发人员更好地在多核CPU中分配工作。

Vulkan源自并基于AMD的Mantle API组件最初的版本被称为OpenGL的下一代。最新的Vulkan1.2发布于2020年1月15日该版本整合了23个额外经常被使用的Vulkan拓展。

Metal与OpenGL性能对比

OpenGL和Vulkan对比

软件生态方面GPU无法单独工作必须由CPU进行控制调用才能工作而CPU在处理大量类型一致的数据时则可调用GPU进行并行计算。所以GPU的生态和CPU的生态是高度相关的。

近年来在摩尔定律演进的放缓和GPU在通用计算领域的高速发展的此消彼长之下通用图形处理器(GPGPU)逐渐“反客为主”利用GPU来计算原本由CPU处理的通用计算任务。

目前各个GPU厂商的GPGPU的实现方法不尽相同如NVIDIA使用的CUDA(compute unified device architecture)技术、原ATI的ATI Stream技术、Open CL联盟、微软的DirectCompute技术。这些技术可以让GPU在媒体编码加速、视频补帧与画面优化、人工智能与深度学习、科研领域、超级计算机等方面发挥异构加速的优势。以上4种技术中只有OpenCL支持跨平台和开放标注的特性还可以使用专门的可编程电路来加速计算业界支持非常广泛。

DirectX和OpenGL生态对比

OpenCL联盟生态

GPU根据接入方式可以划分为独立GPU和集成GPU。独立GPU一般封装在独立的显卡电路板上拥有独立显存而集成GPU常和CPU共用一个Die共享系统内存。GPU根据接入方式可以划分为独立GPU和集成GPU。独立GPU一般封装在独立的显卡电路板上拥有独立显存而集成GPU常和CPU共用一个Die共享系统内存。

GPU的主要分类

独立GPU

集成GPU Die

GPU显存是用来存储显卡芯片处理过或者即将提取的渲染数据是GPU正常运作不可或缺的核心部件之一。GPU的显存可以分为独立显存和集成显存两种。目前独立显存主要采用GDDR3、GDDR5、GDDR5X、GDDR6而集成显存主要采用DDR3、DDR4。服务器GPU偏好使用Chiplet形式的HBM显存更大化吞吐量。

集成显存受制于64位操作系统的限制即便组成2通道甚至4通道与独立显存的带宽仍有相当差距。通常这也造成了独立GPU的性能强于集成GPU。

显存的主要分类

独立显存的工作方式

独立显存的工作方式

集成显卡是指一般不带显存而是使用系统的一部分主内存作为显存的显卡。集成显卡可以被整合进主板作为北桥芯片的一部分也可以和CPU集成在同一个Die中。集成显卡的显存一般根据系统软件和应用软件的需求自动调整。如果显卡运行需要占用大量内存空间那么整个系统运行会受限此外系统内存的频率通常比独立显卡的显存低很多因此集成显卡的性能比独立显卡要逊色一些。

独立显卡是将显示芯片及相关器件制作成一个独立于电脑主板的板卡成为专业的图像处理硬件设备。独立显卡因为具备高位宽、高频独立显存和更多的处理单元性能远比集成显卡优越不仅可用于一般性的工作还具有完善的2D效果和很强的3D水平因此常应用于高性能台式机和笔记本电脑主要的接口为PCIe。

如今独立显卡与集成显卡已经不是2个完全割裂各自为营的图像处理单元了。二者在微软DX12的支持下也可以实现独核显交火同时AMD和NVIDIA的显卡也可实现混合交火。

集成显卡和独立显卡对比

GPU对比CPU:从芯片设计思路看CPU是以低延迟为导向的计算单元通常由专为串行处理而优化的几个核心组成而GPU是以吞吐量为导向的计算单元由数以千计的更小、更高效的核心组成专为并行多任务设计。

CPU和GPU设计思路的不同导致微架构的不同。CPU的缓存大于GPU但在线程数寄存器数和SIMD(单指令多数据流)方面GPU远强于CPU。

微架构的不同最终导致CPU中大部分的晶体管用于构建控制电路和缓存只有少部分的晶体管完成实际的运算工作功能模块很多擅长分支预测等复杂操作。GPU的流处理器和显存控制器占据了绝大部分晶体管而控制器相对简单擅长对大量数据进行简单操作拥有远胜于CPU的强大浮点计算能力。

GPU和CPU的核心设计思路对比

GPU和CPU的核心对比

后摩尔时代随着GPU的可编程性不断增强GPU的应用能力已经远远超出了图形渲染部份GPU被用于图形渲染以外领域的计算成为GPGPU。与此同时CPU为了追求通用性只有少部分晶体管被用于完成运算而大部分晶体管被用于构建控制电路和高速缓存。但是由于GPU对CPU的依附性以及GPU相较CPU更高的开发难度所以GPU不可能完全取代CPU。我们认为未来计算架构将是GPU+CPU的异构运算体系。

在GPU+CPU的异构运算中GPU和CPU之间可以无缝地共享数据而无需内存拷贝和缓存刷新因为任务以极低的开销被调度到合适的处理器上。CPU凭借多个专为串行处理而优化的核心运行程序的串行部份而GPU使用数以千计的小核心运行程序的并行部分充分发挥协同效应和比较优势。

异构运算除了需要相关的CPU和GPU等硬件支持还需要能将它们有效组织的软件编程。OpenCL是(OpenComputing Language)的简称它是第一个为异构系统的通用并行编程而产生的统一的、免费的标准。OpenCL支持由多核的CPU、GPU、Cell架构以及信号处理器(DSP)等其他并行设备组成的异构系统。

OpenCL异构运算构成

异构运算下的GPU工作流程

GPU与ASIC和FPGA的对比:数据、算力和算法是AI三大要素CPU配合加速芯片的模式成为典型的AI部署方案CPU提供算力加速芯片提升算力并助推算法的产生。常见的AI加速芯片包括GPU、FPGA、ASIC三类。

GPU用于大量重复计算由数以千计的更小、更高效的核心组成大规模并行计算架构配备GPU的服务器可取代数百台通用CPU服务器来处理HPC和AI业务。

FPGA是一种半定制芯片灵活性强集成度高但运算量小量产成本高适用于算法更新频繁或市场规模小的专用领域。

ASIC专用性强市场需求量大的专用领域但开发周期较长且难度极高。

在AI训练阶段需要大量数据运算GPU预计占64%左右市场份额FPGA和ASIC分别为22%和14%。推理阶段无需大量数据运算GPU将占据42%左右市场FPGA和ASIC分别为34%和24%。

不同应用场景AI芯片性能需求和具体指标

GPU、FPGA、ASIC AI芯片对比

在PC诞生之初并不存在GPU的概念所有的图形和多媒体运算都由CPU负责。但是由于X86 CPU的暂存器数量有限适合串行计算而不适合并行计算虽然以英特尔为代表的厂商多次推出SSE等多媒体拓展指令集试图弥补CPU的缺陷但是仅仅在指令集方面的改进不能起到根本效果所以诞生了图形加速器作为CPU的辅助运算单元。

GPU的发展史概括说来就是NVIDIA、AMD(ATI)的发展史在此过程中曾经的GPU巨头Imagination、3dfx、东芝等纷纷被后辈超越。如今独立显卡领域主要由英伟达和AMD控制而集成显卡领域由英特尔和AMD控制。

GPU的发展史

英伟达的GPU架构自2008年以来几乎一直保持着每2年一次大更新的节奏带来更多更新的运算单元和更好的API适配性。在每次的大换代之间不乏有一次的小升级如采用开普勒二代微架构的GK110核心相较于采用初代开普勒微架构的GK104核心升级了显卡智能动态超频技术CUDA运算能力提升至3.5代流式多处理器(SMX)的浮点运算单元提升8倍加入了Hyper-Q技术提高GPU的利用率并削减了闲置更新了网格管理单元(Grid Management Unit)为动态并行技术提供了灵活性。

英伟达GPU微架构的持续更新使英伟达GPU的能效提升了数十倍占领了独立显卡技术的制高点。

2008-2020英伟达GPU微架构进化

图形API在GPU的运算过程中发挥着连接语言、显卡驱动乃至底层汇编语言的作用充当GPU运行和开发的“桥梁”和“翻译官”。微软DirectX标准可以划分为显示部份、声音部份、输入部分和网络部分其中与GPU具有最直接关系的是显示部分。显示部份可分为DirectDraw和Direct3D等标准前者主要负责2D图像加速后者主要负责3D效果显示。

从1995年发布的初代DirectX 1.0开始微软的DirectX已经更新到了DirectX 12。在此过程中DirectX不断完善对各类GPU的兼容增加开发人员的权限提高GPU的显示质量和运行帧数。

DirectX一般和Windows操作系统同步更新如Windows 7推出了DX11、Windows 10推出了DX12。

1998-2014微软DirectX进化

GPU和CPU都是以先进制程为导向的数字芯片。先进制程可以在控制发热和电能消耗的同时在有限的Die中放入尽可能多的晶体管提高GPU的性能和能效。

NVIDIA的GPU从2008年GT200系列的65纳米制程历经12年逐步升级到了RTX3000系列的7/8纳米制程在整个过程中晶体管数量提升了20多倍逐步确立了在独立GPU的市场龙头地位。

同时在整个过程中NVIDIA一直坚持不采用IDM的模式而是让台积电负责GPU的制造自生专注于芯片设计充分发挥比较优势。

2008-2020英伟达GPU主要制程和晶体管数进化

根据前12年的GPU发展轨迹来看GPU微架构的升级趋势可以简要地概括为”更多”、”更专”、”更智能”。“更多”是指晶体管数量和运算单元的增加其中包括流处理器单元、纹理单元、光栅单元等数量上升。“更专”是指除了常规的计算单元GPU还会增加新的运算单元。例如英伟达的图灵架构相较于帕斯卡架构新增加了光追单元和张量单元分别处理实时光线追踪和人工智能运算。“更智能”是指GPU的AI运算能力上升。如第三代的张量单元相较于上代在吞吐量上提升了1倍。

英伟达GTX1080对比RTX2080

英伟达伏特微架构对比安培微架构AI加速性能

英伟达安培架构提升

综合分析微软的DirectX12、苹果的Metal2、Khronos Group的Vulkan API分别相较于前代DirectX11、Metal、OpenGL的升级我们认为GPU API的升级趋势是提高GPU的运行效率、增加语言和显卡驱动之间的连接、优化视觉等。其中提供更底层的支持:统筹语言、显卡驱动和底层语言是几乎所有API升级的主要方向。

不过提供更底层的支持只是更高的帧数或更好的画质的必要非充分条件。在整个软件的开发过程中软件开发商需要比驱动程序和系统层更好地调度硬件资源才能充分发挥底层API的效果。

在显示质量方面DirectX 12 Ultimate采用当下最新的图形硬件技术支持光线追踪、网格着色器和可变速率着色PC和Xbox共用同一个API堪称次世代游戏的全新黄金标准。

非底层DirectX 11对比底层DirectX 12

DirectX 12 Ultimate新特性

GPU制造升级趋势:以先进制程为导向。GPU性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由GPU的制程决定的。制程在过去通常表示晶体管或栅极长度等特征尺寸不过出于营销的需要现在的制程已经偏离了本意因此单纯比较纳米数没有意义。按英特尔的观点每平方毫米内的晶体管数(百万)更能衡量制程。据此台积电和三星的7nm工艺更接近英特尔的10nm工艺。

先进的制程可以降低每一个晶体管的成本提升晶体管密度在GPU Die体积不变下实现更高的性能;先进制程可以提升处理器的效能在性能不变的情况下减少发热或在发热不变的情况下通过提升主频来拉高性能。

先进制程的主要目的是降低平面结构带来的漏电率问题提升方案可以通过改变工艺如采用FinFET(鳍式场效应晶体管)或GAA(环绕式栅极);或采用特殊材料如FD-SOI(基于SOI的超薄绝缘层上硅体技术)。

先进制程工艺之FinFET

英特尔10nm先进制程带来的性能和效能提升

GPU制造升级趋势:Chiplet化。高位宽内存(HBM)是小芯片(Chiplet)在GPU中的常见应用。HBM是一种高速计算机存储器3D堆栈SDRAM接口。HBM于2013年推出第二代HBM2已于2016年被JEDEC接受。目前HBM主要应用在高端独立显卡和服务器显卡。

HBM通过3D堆叠4个DRAM Die和1片逻辑Die组成一个Chiplet其中每片DRAM具有2个128位通道通过TSV(硅通孔)相连。所以一片Chiplet总共8个128位通道总位宽1024比特。每片Chiplet又与GPU封装在同一中介层(Interposer)连接GPU芯片。相比之下GDDR5内存的总线宽度为32位带有512位内存接口的显卡也只有16个通道而且采用传统的FBGA封装。HBM与GDDR5相比每GB的表面积减少94%每GB/S带宽的能效提升2倍多。

HBM支持最多每个Chiplet 4GB的存储HBM2在HBM的基础上将每片Chiplet的更大容量提升至了8GB显存主频提升1倍同时总位宽保持不变。

HBM的GPU应用

GDDR5对比HBM

HBM先进封装结构

GPU制造可分为IDM和Fab+Fabless。IDM集芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。

Fabless只负责芯片的电路设计与销售将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只负责制造不负责芯片设计可以同时为多家设计公司服务但受制于公司间的竞争关系。台积电为Foundry的代表。目前英特尔GPU落后的主要原因是GPU制程的落后根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制程的发展芯片的制造成本和设计成本成指数级上升。同时一条12英寸晶圆的生产线从建设到生产的周期约2年投资至少30-50亿美元资本支出占比80%整体风险非常大。英特尔以有限的资源不支持它持续的设计和生产的的两线作战。

Fab+Fabless的模式通过充分发挥比较优势分散了GPU设计和制造的风险符合半导体分工的大趋势。

IDM与Fab+Fabless对比

芯片设计费用趋势(亿美元)

过去20多年里GPU的基本需求源于视频加速2D/3D游戏。随后GPU运用自身在并行处理和通用计算的优势逐步开拓服务器、汽车、矿机、人工智能、边缘计算等领域的衍生需求。虽然GPU无法离开CPU独立运作但是在当前“云化”加速的时代离开了GPU的CPU也无法胜任庞大的计算需求。所以GPU和CPU组成了异构运算体系从底层经由系统软件和驱动层支持着上层的各种应用。GPU已经成为了专用计算时代的刚需。

现代云计算中GPU加速的刚需

二、GPU的全球格局

2020年全球GPU市场价值预计为254.1亿美元预计2027年将达到1853.1亿美元年平均增速为32.82%。按GPU的类型进行划分市场可以细分为独立、集成和混合。2019年集成GPU占GPU市场的主导地位但是由于混合GPU同时拥有集成和专用GPU的能力所以混合细分市场预计实现更高复合增长率。

按GPU的设备进行划分市场可细分为计算机、平板电脑、智能手机、游戏机、电视、其他。就收入而言智能手机细分市场占比更大在未来也将保持这一趋势。但是由于医疗等其他设备中对小型GPU的需求不断增加预计未来的年复合增长率将更高。

按GPU的行业进行划分市场可细分为电子、IT与电信、国防与情报、媒体与娱乐、汽车、其他。由于GPU在设计和工程应用中的广泛使用预计汽车细分行业的年复合增长率更高。

按GPU的地理区域划分市场可细分为北美、欧洲、亚太和其他地区。亚太地区在2019年主导了全球GPU市场预计在整个预测期内将保持主导地位。

全球GPU市场规模预测

2015-2025全球前三GPU供应商营收总和

全球GPU已经进入了寡头垄断的格局。在传统GPU市场中排名前三的Nvidia、AMD、Intel的营收几乎可以代表整个GPU行业收入。英伟达的收入占56%、AMD占26%、英特尔占18%。

在手机和平板GPU方面联发科、海思麒麟、三星Exynos的GPU设计主要基于公版ARM MaliGPU或PowerVR微架构。高通骁龙Adreno和苹果A系列采用自研GPU微架构。2019Q2ARM、高通、苹果、Imagination科技、英特尔是全球智能手机和平板的前五大GPU供应商。同期ARM Mali在以上五大GPU供应商中占43%的市场份额高通Adreno占36%的份额苹果占12%的份额。

2019前三家GPU供应商收入份额对比

2019 Q2手机和平板GPU供应商份额

1、英伟达

英伟达公司成立于1993年于1999年率先推出“GPU”的图形解决方案。公司主要设计游戏和专业市场的GPU移动计算和自动驾驶汽车的SoC是GPU计算领域公认的全球。它主要的GPU产线“GeForce”和AMD的“Radeon”形成直接竞争。同时英伟达为了拓展移动游戏平台推出了掌机Shield、Shield平板、Shield电视盒子和云游戏服务GeForce Now。目前公司已经完成了由芯片供应商向计算平台的转型。

英伟达的四大增长驱动力分别是游戏业务、数据中心业务、专业视觉业务、自动驾驶业务各业务的代表性GPU方案分别是GeForceDGX、EGX、HGXQuadro、AGX。

英伟达2021财年营收167亿美元其中游戏、数据中心、专业视觉、自动驾驶业务在2020财年分别贡献了营收的47%、40%、6%、3%。公司继2014年毛利率突破50%后于2021财年毛利率突破60%。

英伟达2021财年的业务构成

英伟达的主要增长驱动力

英伟达的游戏业务由GeForce和Shield组成。其中Shield面向移动端和云GeForce面向PC。游戏笔记本和云游戏是公司拓展市场的2大方向。GeForce是英伟达游戏业务的核心。GeForce是全球更大的游戏平台拥有超过2亿名玩家。在PC游戏领域英伟达的营收是其他主要GPU供应商的三倍多。GeForce已经来到了RTX30系列采用第二代NVIDIA RTX架构-NVIDIA安培架构搭载全新的RT Core、Tensor Core及流式多处理器拥有RTX游戏、DLSS、G-SYNC、DirectX12等先进技术可带来逼真的光线追踪效果和先进的AI性能。

除了PC游戏市场英伟达也向合作伙伴–任天堂Switch主机提供定制版Tegra SoC。作为合作的一部分Shield主机可以畅享任天堂的游戏GameStream串流游戏和热门游戏实现4KHDR画质支持百度DuerOS对话式人工智能。

英伟达的数据中心业务的技术根源是CUDA(统一计算设备架构)。CUDA推出于2006年的G80核心隶属于通用并行计算架构创造了GPGPU。在“安培”时代CUDA核心已经进化到了8.0被运用在几乎所有的英伟达产品线。

CUDA兼容DirectCompute、OpenCL等计算接口。与Direct3D、OpenGL等图形API相比CUDA可以使开发者更容易使用GPU资源。当前CUDA在广义上既代表GPU的硬件平台又代表GPU的软件平台。

在硬件平台方面CUDA包含了CUDA指令集以及GPU内部的并行计算引擎。GPU平台的矢量运算如INT、FP32、FP64都由CUDA承担。开发人员可以使用C语言和Fortran语言为CUDA编写程序。

在软件平台方面基于CUDA的CUDA-X加速库、工具和科技集合向上对接不同的行业应用需求。在英伟达的软件栈体系中分为CUDA-X AI和CUDA-X HPC分别面向AI和HPC两大领域可以在人工智能和高性能计算方面提供远超其他竞品的性能。CUDA-X的开发者已经超过100万。

英伟达CUDA-X HPC

英伟达CUDA-X AI

英伟达数据中心的产品包括适用于AI的DGX系统适用于边缘计算的EGX平台适用于超算的HGX平台、适用于数据处理的DPU、简化深度学习机器学习高性能计算的NGC目录。相关的GPU加速器有采用安培架构的A100、A40采用图灵架构的T4、RTX6000、RTX8000采用伏特架构的V100。

过去5个财年中英伟达数据中心的营收从8.3亿美元上升至66.96亿美元年复合增速69%。同时公司的注册开发者超过200万与主要的云供应商如谷歌、腾讯、阿里建立了供应关系世界500强超算中的份额从6%上升至70%。

英伟达主要云合作伙伴

英伟达数据中心营收趋势

英伟达在超算500强中份额

英伟达专业视觉业务主要由Quadro产品线组成。Quadro在GeForce的基础上加强了NVLink、GPU的通用计算性能和显存容量拥有Iray、Omniverse平台、材质定义语言等特有技术。Quadro被广泛应用在台式工作站、笔记本电脑、EGX服务器、虚拟工作空间、云端、定制化方案中。英伟达Quadro方案有超过50种应用、4000万设计用户和2000万企业用户并正在不断解锁新市场。

在过去的5个财年英伟达专业视觉的营收从8.35亿美元上升至10.53亿美元年复合增速6%。

英伟达专业视觉GPU加速合作伙伴

英伟达专业视觉营收趋势

英伟达专业视觉方案

英伟达的汽车产品包括相关驾驶软件、驾驶基础设计、AGX平台提供训练、模拟、智能驾驶舱体验、高清地图和定位等解决方案。在性能方面搭载4颗Drive AGX Origin的蔚来ADAM超算平台支持L4以上自动驾驶超过7个特斯拉FSD算力总和。

不同于特斯拉自动驾驶追求软硬件的高度契合英伟达的方案更追求开放性。公司在汽车领域的合作伙伴以软件服务和轿车居多分别达到了76家和42家。同时公司与大众、丰田、本田、奔驰、宝马、奥迪、沃尔沃、马牌、滴滴、采埃孚、蔚来、小鹏、图森等世界知名公司建立了强力的生态。

在过去的5个财年英伟达自动驾驶的营收从4.87亿美元上升至5.36亿美元年复合增速3%。

英伟达自动驾驶营收趋势

英伟达自动驾驶合作伙伴分布数

2020年9月13日NVIDIA宣布以400亿美元收购ARM。本次收购意义可以细分为以下5个方面:

1. 创造AI时代的计算公司将英伟达领先的AI计算平台和ARM庞大的CPU生态相结合;

2. 通过英伟达在移动端和PC等大型终端市场的科技拓展ARM的IP授权组合;

3. 加速ARM的服务器CPU、数据中心、边缘AI、IoT发展;

4. 将英伟达计算平台的开发者由200万提升至超过1500万;

5. 并购可以立即增加英伟达的非GAAP毛利率和非GAAP每股收益;

合并后的英伟达将把计算从云、智能手机、PC、自动驾驶车和机器人技术推进到了边缘物联网将AI计算拓展到全球在拓展大规模、高增长市场的同时加速创新。

英伟达从云到边缘

2、全球GPU先驱:AMD

AMD是全球可以同时提供高性能GPU和CPU的企业。AMD的显卡来源于2006年并购的ATI科技。在这之后的4年中AMD继续使用ATI作为显卡品牌。直到2010年AMD才抛弃原ATI的品牌命名方式。

目前AMD同时提供独立GPU和集成GPU其集成GPU主要运用在Ryzen APU、嵌入式、半定制平台中独立GPU分为Radeon和Instinct系列主要用于游戏、专业视觉、服务器等应用。

过去六年AMD的计算和图形收入的营收由18.05亿美元上升至64.32亿美元年复合增速29%。

未来五年AMD计划成为高性能计算的提供颠覆性的CPU和GPU方案。

AMD计算和图形部门营收

AMD GPU的聚焦领域

AMD的集成GPU主要被运用在台式机和笔记本的APU产品中和CPU组成异构运算单元。台式和笔记本APU的GPU部份共用微架构和核心技术二者GPU的主要差异在于TDP和处理单元的数量台式强于笔记本。

“Renior”APU的GPU继续使用Vega微架构但受益于7纳米制程每个处理单元效能显著提升。

7纳米Vega的提升包括:数据网络翻倍、优化低功耗状态转换、25%主频提升、77%存储位宽提升。这些提升带来了在保持15W功耗不变的前提下每个计算单元59%的性能提升、1.79TFLOPS的32位浮点峰值吞吐。

在3DMark Time Spy(DX12)的跑分中7纳米的Ryzen 4800U的GPU表现超过10纳米i7-1065G7是14纳米i7-10710U的2倍以上。

AMD “RENIOR”APU

AMD “RENIOR”APU内核解析

AMD “RENIOR”APU跑分对比

AMD的Radeon系列游戏独立GPU按微架构推出时间依次递减可以分为RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中除RX500系列外均采用台积电7纳米制程。

2020年11月推出的RDNA2微架构相较于前代RDNA性能更高提升一倍能效提高54%支持DirectX12 Ultimate硬件光线追踪和可变速率着色器等先进技术。搭载16GBGDDR6显存和128MB InfinityCache高速缓存的RX 6900XT的游戏性能接近英伟达的RTX 3090。

为了发挥AMD CPU和GPU的协同效应Radeon拥有AMD SmartAccess Memory技术锐龙CPU和显卡之间能实现更出色的通信。RX6800系列显卡在部分游戏中4K画质性能额外提升更高可达7%。

2022年前AMD将基于更先进的制程打造RDNA3微架构进一步强化光追等计算表现。

除了传统的BGA显存封装AMD还积极运用HBM系列显存。在Radeon7中16GB的HBM2显存拥有1TB/S的带宽超过同期Titan RTX 50%。

AMD独立游戏GPU路线图

AMD独立游戏GPU产品线

AMD的数据中心GPU业务由Radeon Instinct加速器系列、以客户为核心的数据中心解决方案和ROCm组成。AMD的主要合作伙伴包括戴尔、惠普等OEM同时AMD也向微软AZURE和亚马逊网络服务提供视觉云解决方案。

ROCm是全球针对加速式计算且不限定编程语言的超大规模开源平台遵循UNIX的选择哲学、极简主义以及针对GPU计算的模块化软件开发。

ROCm适合大规模计算支持多路GPU有丰富的系统运行库包括框架、库、编程模型、互联和Linux Kernel上游支持提供各种重要功能来支持大规模应用、编译器和语言运行库的开发。

AMD正与美国能源部、橡树岭实验室和Cray公司合作使用EPYC(霄龙)CPU、Radeon Instinct GPU和ROCm打造超过150亿亿次FLOPS的全球最快超算平台。

AMD ROCm开源软件生态

AMD数据中心GPU产品线

Radeon Instinct MI 100加速器采用专注计算的CDNA微架构在计算和连接方面实现了巨大飞跃与AMD上一代加速器相比高性能计算工作负载(FP32矩阵)性能提升近3.5倍而人工智能工作负载(FP16)性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英伟达安培A100同时功耗比后者低100瓦。

为了满足多路GPU的互联通讯需求AMD研发了InfinityFabric技术。Infinity Fabric拥有先进的平台连接性和可拓展性最多支持4路GPU互联。P2P带宽是PCIe 4.0的2倍四GPU集群的P2P带宽更高可达552GB/s。

未来AMD将基于更先进的制程打造CDNA2微架构进入百亿亿级时代。

Instinct MI 100与安培A100对比

AMD数据中心GPU路线图

AMD Infinity Fabric互联

AMD的其他独立GPU主要包括嵌入式、半定制化、Radeon Pro工作站显卡。半定制化独立显卡主要倍运用在索尼、微软的本世代和次世代主机中。如今AMD的技术存在于2.2亿个家庭畅享游戏和视频娱乐时所用设备的核心。

嵌入式GPU的特点包括卓越的图形性能、多屏显示、外形紧凑、高能效、长期供货。嵌入式GPU分为超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU它们主要使用14纳米的GCN 1.4北极星微架构TDP覆盖20W-135W范围。

Radeon Pro系列显卡被广泛应用于建筑工程、设计制造、媒体娱乐等领域拥有AMD远程工作站、AMD Eyefinity多屏显示技术、AMD Radeon ProRender等技术。Radeon Pro系列采用Vega微架构7或14纳米制程直接竞争对手是英伟达的Quadro系列。Radeon Pro移动和台式工作站的合作伙伴包括苹果、戴尔、惠普等。

Radeon? Pro VII GPU规格

3、英特尔:全球GPU追赶者

英特尔是全球更大的PC GPU供应商也是PC和服务器显卡的IDM厂商。英特尔的GPU最早可以追溯到1998年的i740但是由于羸弱的性能和缓慢的更新速度一直没有非常大的起色。进入Core i时代后英特尔通过将核芯显卡和CPU进行捆绑销售利用CPU的庞大市场份额确立了公司在集成GPU领域的寡头垄断地位在此过程中AMD的APU一直是酷睿的直接竞争对手。

2020年英特尔推出了第12代GPGPU采用全新的Xe微架构和10纳米Super Fin制程。相较于第11代核显Xe-LP在保持电压不变的前提下大幅提升主频能效显著提高。搭载Xe-LP的i7 1185G7在GPU性能方面已经超过同期AMD的Vega核显和英伟达的MX系列独显。

Xe系列可以细分为集成/低功耗的Xe-LP、娱乐/游戏的Xe-HPG、数据中心/高性能的Xe-HP、高性能计算的Xe-HPC。

目前Xe-LP的集成版本已经被第11代酷睿所采用。Xe-LP的移动独立GPU版本DG1和服务器独立GPU版本SG1也已发布。独显版在核显版的基础上进一步提升主频并加入了128位4GB LPDDR4X-4266独立显存单精度浮点算力提升15%。

英特尔Xe纵向对比第11代核显

英特尔Xe产品线

英特尔的集成GPU在形式上表现为核芯显卡。核芯显卡使用系统DRAM作为非独立显存通过处理器内部的环状总线与CPU连接负责处理游戏、视频娱乐等图像负载。

英特尔Xe核显借助10纳米SuperFin的优势将处理单元更高提升至96个相较于Icelake的64个提升了50%并且将连接CPU和GPU的总线带宽提升一倍独立最终缓存(LLC)提高50%支持更高86GB/s的存储带宽。以上这些提升使i7-1185G7的3DMark跑分较前代i7-1065G7提升接近一倍超过AMD的R74800U和同期英伟达的MX350。

Xe核显的显示引擎和媒体引擎也都得到加强。接口方面内部支持双eDP外部支持DP1.4、HDMI2.0、雷电4、USB4 Type-C。画质方面支持8K、HDR10、12比特BT2020色域、360赫兹刷新率等。

英特尔Xe核心显卡和CPU经由自家One API驱动中间层框架和上层应用。英特尔One API解决了编码模型在不同微架构间的壁垒更大化跨平台表现和最小化开发成本。

英特尔Tiger Lake 实物图和Die

英特尔Tiger Lake Xe核显3DMark性能对比

英特尔独立GPU分为锐炬Xe MAX和服务器GPU均隶属于Xe LP系列微架构与核显Xe相同采用标准封装和10纳米SuperFin制程。

目前锐炬Xe MAX是第一款基于英特尔 Xe 架构的面向轻薄型笔记本电脑的GPU。锐炬Xe MAX在Xe集成GPU的基础上增加了4GBLPDDR4X-4266的独立显存TDP 25W峰值主频1650MHz单精度浮点性能2.46TFLOPs。锐炬Xe MAX可以和11代酷睿处理器、锐炬Xe GPU同时工作。借助英特尔Deep Link技术获得具有强大性能和经过功耗优化的集成系统以改进创造力和游戏体验。

目前英特尔服务器GPU在Xe核显的基础上TDP提升到23W增加了8GB LPDDR4的独立显存支持高密度、低延迟的安卓云游戏和高密度媒体转码/编码以实现实时的OTT视频直播。同时英特尔服务器GPU支持2颗、4颗独立GPU的聚合成倍提高性能。

未来英特尔还将推出面向游戏和高性能桌面的Xe HPG产品线增加了光线追踪等硬件支持采用传统封装外包生产。英特尔服务器GPU将使用Xe HPC、Xe HP微架构采用2.5D和3D先进封装10纳米SuperFin及更先进自家或外包工艺。

英特尔Xe服务器GPU参数

英特尔Xe产品、封装、制程

英特尔锐炬Xe MAX

4、ARM Mali:全球GPU IP巨头

ARM是全球更大的半导体IP提供商。全世界超过95%的智能手机和平板电脑都采用ARM架构。2019Q2全球近43%的手机和平板GPU由Mali驱动。2020第四季度ARM半导体合作伙伴基于ARM技术的芯片出货量达到67亿颗再创历史新高超过其他所有流行的CPU指令集架构—X86、ARC、Power、MIPS的总和。

国产SoC中有95%是基于ARM处理器技术ARM中国授权客户超过150家基于ARM架构的国产芯片出货量已经超过184亿。

ARM的Mali GPU按性能可以分为3大类分别是高性能、主流、高能效。

ARM IP组合和SoC设计

ARM Mali GPU路线图

Arm Mali-G78 GPU是用于高端设备的第二代基于Valhall架构的GPU。Mali-G78是性能更高的ArmGPU可支持复杂的应用例如适用于Vulkan和OpenCL等所有最新API的游戏图形和机器学习(ML)。

Mali-G78与上一代设备相比GPU性能提高了25%并增强了设备上的ML功能从而有助于将高度复杂的游戏带入移动设备。Mali-G78最多支持24个内核并包含异步功能可确保性能有效地分布在各个内核上从而使图形运行更加流畅。全新执行引擎中的新型融合乘加(FMA)单元可进一步降低30%的单元能耗。

在GFXBench Aztec Ruin的跑分中使用台积电5纳米工艺搭载24个Mali-G78内核的麒麟9000 SoCGPU的帧数强于骁龙865的Adreno 650但仍落后于苹果A14。

ARM Mali-G78

麒麟9000系列的ARM Mali-G78应用

Imagination Technologies是一家总部在英国专注于半导体和相关知识产权许可销售PowerVR移动图形处理器MIPS嵌入式微处理器和消费电子产品。公司还提供无线基带处理网络数字信号处理器视频和音频硬件IP语音软件云计算以及芯片和系统设计服务。2017年董事会宣布公司被中资的Canyon Bridge收购。

Imagination在GPU领域历史悠久在其超过25年的历史中Imagination先后推出过多代GPU产品已积累超过1500项GPU专利曾为苹果供应图像处理器(GPU)在图像处理器(GPU)领域与高通、ARM三分天下曾占GPU市场大约占据三分之一的份额在汽车领域更是达到43%。带有Imagination IP的芯片产品累计出货量已超过110亿。

Imagination的IP包括图形处理器和视觉与人工智能2类。公司Power VR产品被广泛应用于移动设备(智能手机、平板)、汽车(仪表、信息娱乐、辅助驾驶)、沉浸式体验(AR/VR)、消费电子(电视、机顶