Dans le cadre des annonces du salon ISC 2021 d’aujourd’hui, NVIDIA annonce ce matin qu’il apporte la version 80 Go de son accélérateur A100 au facteur de forme PCIe. Annoncée pour la première fois dans le facteur de forme SXM personnalisé de NVIDIA l’automne dernier, la version 80 Go de l’A100 a été introduite non seulement pour étendre la capacité totale de mémoire d’un accélérateur A100 – en la doublant de 40 Go à 80 Go – mais elle offrait également une rare amélioration des spécifications de mi-génération ainsi, augmentant les vitesses d’horloge de la mémoire de 33% supplémentaires. Maintenant, après un peu plus de 6 mois, NVIDIA lance une version PCIe de l’accélérateur pour les clients qui ont besoin de cartes d’extension discrètes.

La nouvelle version 80 Go de la PCIe A100 rejoint la version 40 Go existante, et NVIDIA continuera à vendre les deux versions de la carte. Dans l’ensemble, il s’agit d’un transfert assez simple du SMX A100 de 80 Go vers PCIe, NVIDIA réduisant le TDP de la carte et le nombre de NVLinks exposés pour correspondre aux capacités du facteur de forme. La sortie de la carte PCIe 80 Go est conçue pour offrir aux clients du facteur de forme PCIe traditionnel de NVIDIA une deuxième option d’accélérateur plus performante, en particulier pour les utilisateurs qui ont besoin de plus de 40 Go de mémoire GPU.

Comparaison des spécifications de l’accélérateur NVIDIA
80 Go A100
(PCIe)
80 Go A100
(SXM4)
40 Go A100
(PCIe)
40 Go A100
(SXM4)
Noyaux FP32 CUDA 6912 6912 6912 6912
Booster l’horloge 1,41 GHz 1,41 GHz 1,41 GHz 1,41 GHz
Horloge de mémoire 3,0 Gbit/s HBM2 3,2 Gbit/s HBM2 2,43 Gbit/s HBM2 2,43 Gbit/s HBM2
Largeur du bus mémoire 5120 bits 5120 bits 5120 bits 5120 bits
Bande passante de la mémoire 1,9 To/s
(1935 Go/s)
2,0 To/s
(2039 Go/s)
1,6 To/s
(1555 Go/s)
1,6 To/s
(1555 Go/s)
VRAM 80 Go 80 Go 40 Go 40 Go
Précision simple 19.5 TFLOP 19.5 TFLOP 19.5 TFLOP 19.5 TFLOP
Double precision 9.7 TFLOP
(taux 1/2 FP32)
9.7 TFLOP
(taux 1/2 FP32)
9.7 TFLOP
(taux 1/2 FP32)
9.7 TFLOP
(taux 1/2 FP32)
Tenseur INT8 624 TOP 624 TOP 624 TOP 624 TOP
Tenseur FP16 312 TFLOP 312 TFLOP 312 TFLOP 312 TFLOP
Tenseur TF32 156 TFLOP 156 TFLOP 156 TFLOP 156 TFLOP
Performances relatives (version SXM) 90 % ? 100% 90% 100%
Interconnexion NVLink 3
12 liens (600 Go/s)
NVLink 3
12 liens (600 Go/s)
NVLink 3
12 liens (600 Go/s)
NVLink 3
12 liens (600 Go/s)
GPU GA100
(826mm2)
GA100
(826mm2)
GA100
(826mm2)
GA100
(826mm2)
Nombre de transistors 54.2B 54.2B 54.2B 54.2B
TDP 300W 400W 250W 400W
Processus de fabrication TSMC 7N TSMC 7N TSMC 7N TSMC 7N
Interface PCIe 4.0 SXM4 PCIe 4.0 SXM4
Architecture Ampère Ampère Ampère Ampère

À un niveau élevé, la mise à niveau de 80 Go vers le PCIe A100 est à peu près identique à ce que NVIDIA a fait pour la version SXM. Le GPU de la carte de 80 Go est cadencé de la même manière que celui de la carte de 40 Go, et les revendications de débit de performances qui en résultent sont inchangées.

Au lieu de cela, cette version concerne la mémoire intégrée, NVIDIA équipant la carte d’une mémoire HBM2E plus récente. HBM2E est le nom informel donné à la mise à jour la plus récente de la norme de mémoire HBM2, qui, en février de cette année, a défini une nouvelle vitesse de mémoire maximale de 3,2 Gbit/s/broche. Couplées à cette amélioration de la fréquence, les améliorations de fabrication ont également permis aux fabricants de mémoire de doubler la capacité de la mémoire, passant de 1 Go/die à 2 Go/die. Le résultat net étant que HBM2E offre à la fois des capacités plus importantes et des bandes passantes plus importantes, deux choses dont Nvidia profite ici.

Avec 5 piles actives de 16 Go, mémoire 8-Hi, le PCIe A100 mis à jour obtient un total de 80 Go de mémoire. Ce qui, fonctionnant à 3,0 Gbit/s/broche, représente un peu moins de 1,9 To/s de bande passante mémoire pour l’accélérateur, soit une augmentation de 25 % par rapport à la version 40 Go. Cela signifie que non seulement l’accélérateur de 80 Go offre plus de stockage local, mais rare pour un modèle de plus grande capacité, il offre également une bande passante mémoire supplémentaire pour l’accompagner. Cela signifie que dans les charges de travail liées à la bande passante mémoire, la version 80 Go devrait être plus rapide que la version 40 Go, même sans utiliser sa capacité de mémoire supplémentaire.

Cette mémoire supplémentaire a cependant un coût : la consommation électrique. Pour le 80 Go A100, NVIDIA a dû composer jusqu’à 300 W pour s’adapter à la consommation d’énergie plus élevée des piles HBM2E plus denses et à plus haute fréquence. Il s’agit d’un changement très notable (sinon tout à fait surprenant) des TDP en raison du fait que NVIDIA a longtemps maintenu la ligne pour ses accélérateurs de calcul PCIe à 250 W, ce qui est largement considéré comme les limites du refroidissement PCIe. Ainsi, une carte de 300 W s’écarte non seulement des anciennes cartes de NVIDIA, mais cela signifie que les intégrateurs de systèmes devront trouver un moyen de fournir 50 W de refroidissement supplémentaires par carte. Ce n’est pas quelque chose que je pense être un obstacle pour trop de conceptions, mais je ne serai certainement pas surpris si certains intégrateurs continuent de n’offrir que des cartes de 40 Go en conséquence.

Et même alors, le 80 Go PCIe A100 semble être un peu freiné par son facteur de forme. L’horloge mémoire de 3,0 Gbit/s est 7 % inférieure à celle du 80 Go SXM A100 et de son horloge mémoire de 3,2 Gbit/s. Donc, NVIDIA laisse apparemment de la bande passante mémoire sur la table juste pour que la carte s’adapte au profil étendu de 300 W.

Sur cette note, il ne semble pas que NVIDIA ait changé le facteur de forme du PCIe A100 lui-même. La carte est entièrement refroidie passivement, conçue pour être utilisée avec des serveurs avec (encore plus) de puissants ventilateurs de châssis, et alimentée par deux connecteurs d’alimentation PCIe à 8 broches.

En ce qui concerne les performances globales attendues, la nouvelle carte PCIe 80 Go devrait suivre la carte SXM de la même manière que les modèles 40 Go. Malheureusement, la fiche technique A100 mise à jour de NVIDIA n’inclut pas cette fois-ci de métrique de performance relative, nous n’avons donc pas de chiffres officiels sur la façon dont la carte PCIe se comparera à la carte SXM. Mais, étant donné les différences de TDP persistantes (300W contre 400W+), je m’attendrais à ce que les performances réelles de la carte PCIe 80 Go soient proches de la même marque de 90% que la carte PCIe 40 Go. Ce qui sert à réitérer que la vitesse d’horloge des GPU ne fait pas tout, surtout à l’ère du matériel contraint par TDP.

Dans tous les cas, le 80 Go PCIe A100 est conçu pour faire appel aux mêmes cas d’utilisation larges que la version SXM de la carte, qui se résume à peu près à la taille des ensembles de données AI et permet des instances GPU multi-instances (MIG) plus grandes. Dans le cas de l’IA, il existe de nombreuses charges de travail qui peuvent bénéficier en termes de temps de formation ou de précision en utilisant un ensemble de données plus important, et la capacité globale de la mémoire GPU a régulièrement été un goulot d’étranglement dans ce domaine, car il y a toujours quelqu’un qui pourrait utiliser plus de mémoire. Pendant ce temps, la technologie MIG de NVIDIA, qui a été introduite sur l’A100, bénéficie de l’augmentation de la mémoire en permettant à chaque instance de se voir allouer plus de mémoire ; s’exécutant sur 7 instances complètes, chacune peut désormais avoir jusqu’à 10 Go de mémoire dédiée.

Pour conclure, NVIDIA n’annonce pas d’informations spécifiques sur les prix ou la disponibilité aujourd’hui. Mais les clients devraient s’attendre à voir bientôt les cartes PCIe A100 de 80 Go.