Skip to content

常用GPU介绍与选型指南

GPU介绍

NVIDIA

英伟达的显卡可以说是现阶段最炙手可热的显卡,凭借优秀的生态搭建,使得绝大多数开源模型、算法都以英伟达显卡为入门的默认环境或者首选环境。

以下为最近几代架构与常用显卡举例。

TIP

RTX代表支持光追

TIP

以下内容中的桌面、工作站、服务器、AI集群均指的是显卡常见的应用方向,并非NVIDIA官方对显卡的定位于系列划分,具体定位以英伟达官方为准。

架构名称发布年份桌面工作站服务器AI集群
Volta2018NVIDIA GeForce RTX TiTANs V--NVIDIA V100
Ampere2020NVIDIA GeForce 3090NVIDIA RTX A4000NVIDIA A40NVIDIA A100
Ada Lovelace2022NVIDIA GeForce 4090NVIDIA RTX 4000 AdaNVIDIA L40S-
Hopper2022---NVIDIA H100

一般而言,更新的架构同子型号的GPU,意味着更高的算力,更大更快的多级缓存,更大的显存,更高的显存带宽。 而从性价比而言,桌面级的显卡会有更低的价格,但是在多卡表现上会受到官方驱动的封锁和限制。更便宜的单价的显卡可能需要更长的时间完成任务,导致完成任务的总价更高。

GPU卡数选择

当显卡没有NVLink的加持下,多卡训练并不一定会提升整体的训练速度,但是如果显存低于最低需求的情况下,那我们的模型是无法运行的。以下是一些常见的显卡与对应关系。

  • 1块GPU。适合一些数据集较小的训练任务,如Pascal VOC等。
  • 2块GPU。同单块GPU,但是你可以一次跑两组参数或者把Batchsize扩大。
  • 4块GPU。适合一些中等数据集的训练任务,如MS COCO等。
  • 8块GPU。经典永流传的配置!适合各种训练任务,也非常方便复现论文结果。

NVLink与SXM

多卡推理训练并不一定会加快你的速度,因为在多卡之间,IO传输速度将会逐渐上升为桎梏显卡性能全部发挥的一个重大因素。可以看到官方提供的带有NVLink或者NVSwitch的测试数据,往往比直接通过主板传输,即PCIE通道的传输的测试性能,要有5%~20%的提升。 算力自由平台会推出一些带有NVLink和SXM解决方案的显卡,并且会注明在显卡型号上,供大家在较高需求进行选择。

由于多张显卡安装在主板上通过PCIE通道通信的速度,相对于单卡来说要更慢一些,于是NVIDIA官方推出了NVLink,一种外部传输设备直接链接两张不同的显卡,而更高级的显卡,例如A100、H100系列甚至可以将2~8卡的进行多组两两相连,会大大提高卡间传输速度。 从40系开始,英伟达取消了GeForce系列的NVLink安装接口。

SXM

SXM是一种集成于定制主板,通过一种NVSwitch来完成高级显卡一体机卡间传输的技术方案。通过直接集成的方式,不再需要外置的NVLink,在表现上更为稳定。往往应用于集群环境。 HGX、DGX等英伟达解决方案,都是基于SXM的进一步扩充的。带有SXM标识的,多卡性能会更强。

CPU与内存

CPU虽然在各种深度学习过程中,并不会特别多的发挥计算,但是CPU所代表的CPU-显存-主板平台,会对显卡IO产生重大的影响。错误的选择将会导致“吕布骑狗”的错配问题(指强力的硬件搭配较差的其他硬件,导致强力硬件不能发挥自己的全部性能)。 例如将支持PCIE 5代的4090搭配到仅支持PCIE 3代Intel E5平台,显卡大量的时间都在等待数据从内存加载到显存,导致算力大量浪费。 算力自由平台的服务器,均选择了与显卡代数接近,配置合理的CPU平台。大家可以放心选择,即便使用一键快捷创建也无须担心。

容器内存一般要给到显存的150%以上,最好是200%以上,对于部分优化较差的模型,要根据自己的实际情况,来选择内容。