Lançant une version très virtuelle du salon du supercalculateur SC20, NVIDIA annonce ce matin une nouvelle version de son accélérateur phare A100. À peine lancé il y a 6 mois, NVIDIA s’apprête à sortir une version mise à jour de l’accélérateur basé sur GPU avec 80 gigaoctets de mémoire HBM2e, doublant la capacité de la version initiale de l’accélérateur. Et comme coup de pouce supplémentaire, NVIDIA compose également les vitesses d’horloge de la mémoire, portant la version 80 Go de l’A100 à 3,2 Gbit / s / broche, soit un peu plus de 2 To / seconde de bande passante mémoire au total.

La version 80 Go de l’A100 continuera d’être vendue aux côtés de la version 40 Go – que NVIDIA appelle maintenant l’A100 40 Go – et elle est principalement destinée aux clients disposant d’ensembles de données IA surdimensionnés. Ce qui à première vue peut sembler un peu évident, mais avec les charges de travail d’apprentissage en profondeur en particulier, la capacité de la mémoire peut être un facteur fortement limitatif lorsque vous travaillez avec des ensembles de données particulièrement volumineux. Ainsi, un accélérateur suffisamment grand pour conserver un modèle entier dans la mémoire locale peut potentiellement être beaucoup plus rapide qu’un accélérateur qui doit fréquemment passer hors de la puce pour échanger des données.

Comparaison des spécifications de NVIDIA Accelerator
A100 (80 Go) A100 (40 Go) V100
Cœurs FP32 CUDA 6912 6912 5120
Boost Clock 1,41 GHz 1,41 GHz 1530 MHz
Horloge mémoire HBM2e 3,2 Gbit / s 2,4 Gbit / s HBM2 HBM2 1,75 Gbit / s
Largeur du bus mémoire 5120 bits 5120 bits 4096 bits
Bande passante mémoire 2,0 To / s 1,6 To / s 900 Go / s
VRAM 80 Go 40 Go 16 Go / 32 Go
Précision unique 19,5 TFLOP 19,5 TFLOP 15.7 TFLOP
Double precision 9.7 TFLOP
(1/2 taux FP32)
9.7 TFLOP
(1/2 taux FP32)
7.8 TFLOP
(1/2 taux FP32)
Tenseur INT8 624 TOP 624 TOP N / A
Tenseur FP16 312 TFLOP 312 TFLOP 125 TFLOP
Tenseur TF32 156 TFLOP 156 TFLOP N / A
Interconnecter NVLink 3
12 liens (600 Go / s)
NVLink 3
12 liens (600 Go / s)
NVLink 2
6 liens (300 Go / s)
GPU GA100
(826 mm2)
GA100
(826 mm2)
GV100
(815 mm2)
Nombre de transistors 54,2B 54,2B 21.1B
TDP 400 W 400 W 300 W / 350 W
Processus de fabrication TSMC 7N TSMC 7N TSMC 12 nm FFN
Interface SXM4 SXM4 SXM2 / SXM3
Architecture Ampère Ampère Volta

En plongeant directement dans les spécifications, la seule différence entre les versions 40 Go et 80 Go de l’A100 sera la capacité de la mémoire et la bande passante mémoire. Les deux modèles sont livrés avec un GPU GA100 principalement activé avec 108 SM actifs et une horloge boost de 1,41 GHz. De même, les TDP entre les deux modèles restent également inchangés. Donc, pour un débit de calcul pur et sur papier, il n’y a aucune différence entre les accélérateurs.

Au lieu de cela, les améliorations pour l’A100 se résument à sa capacité de mémoire et à sa plus grande bande passante mémoire. Lorsque l’A100 d’origine est de retour en mai, NVIDIA l’a équipé de six piles de 8 Go de mémoire HBM2, l’une de ces piles étant désactivée pour des raisons de rendement. Cela a laissé l’A100 d’origine avec 40 Go de mémoire et un peu moins de 1,6 To / seconde de bande passante mémoire.

Pour le plus récent A100 80 Go, NVIDIA conserve la même configuration de 5 piles de mémoire sur 6 activées, mais la mémoire elle-même a été remplacée par une nouvelle mémoire HBM2E. HBM2E est le nom informel donné à la mise à jour la plus récente de la norme de mémoire HBM2, qui, en février de cette année, définissait une nouvelle vitesse de mémoire maximale de 3,2 Gbps / pin. En plus de cette amélioration de la fréquence, les améliorations de fabrication ont également permis aux fabricants de mémoire de doubler la capacité de la mémoire, passant de 1 Go / puce à 2 Go / puce. Le résultat net est que HBM2E offre à la fois des capacités plus importantes et des bandes passantes plus importantes, deux choses dont NVIDIA profite ici.

Avec 5 piles actives de 16 Go de mémoire 8-Hi, l’A100 mis à jour obtient un total de 80 Go de mémoire. Ce qui, fonctionnant à 3,2 Gbps / pin, équivaut à un peu plus de 2 To / s de bande passante mémoire pour l’accélérateur, soit une augmentation de 25% par rapport à la version 40 Go. Cela signifie que non seulement l’accélérateur de 80 Go offre plus de stockage local, mais qu’il est rare pour un modèle de plus grande capacité, il offre également une bande passante mémoire supplémentaire pour l’accompagner. Cela signifie que dans les charges de travail liées à la bande passante mémoire, la version 80 Go devrait être plus rapide que la version 40 Go, même sans utiliser sa capacité de mémoire supplémentaire.

Être en mesure de proposer une version de l’A100 avec plus de bande passante mémoire semble être en grande partie un artefact de fabrication plutôt que quelque chose de prévu par NVIDIA – Samsung et SK Hynix n’ont finalement commencé la production de masse de HBM2E qu’un peu plus tôt cette année – mais néanmoins c’est sûr d’être le bienvenu.

Sinon, comme mentionné précédemment, la mémoire supplémentaire ne modifiera pas les paramètres TDP de l’A100. Ainsi, l’A100 reste une pièce de 400 watts et, nominalement, la version 80 Go devrait être un peu plus économe en énergie car elle offre plus de performances à l’intérieur du même TDP.

Parallèlement, NVIDIA a également confirmé que la plus grande capacité de mémoire du modèle 80 Go sera également disponible pour les utilisateurs de GPU multi-instances (MIG). L’A100 a toujours une limitation matérielle de 7 instances, de sorte que les instances de taille égale peuvent désormais avoir jusqu’à 10 Go de mémoire dédiée chacune.

En ce qui concerne les performances, NVIDIA lance quelques chiffres comparant les deux versions de l’A100. Il est en fait un peu surprenant qu’ils parlent autant de la version 80 Go, car NVIDIA va continuer à vendre la version 40 Go. Mais avec l’A100 80 Go susceptible de coûter une jambe (NVIDIA a déjà acheté l’Arm), il ne fait aucun doute qu’il existe encore un marché pour les deux.

Enfin, comme avec le lancement de l’A100 original plus tôt cette année, l’accent immédiat de NVIDIA avec l’A100 80 Go est sur les configurations HGX et DGX. L’accélérateur de facteur de forme mezzanine est conçu pour être installé dans des systèmes multi-GPU, c’est ainsi que NVIDIA le vend: dans le cadre d’une carte de support HGX avec 4 ou 8 GPU installés. Pour les clients qui ont besoin de A100 individuels, NVIDIA continue de proposer le PCIe A100, mais pas dans une configuration de 80 Go (du moins, pas encore).

En plus de mettre l’A100 80 Go à la disposition des clients HGX, NVIDIA lance également aujourd’hui un nouveau matériel DGX. Dans le haut de gamme, ils proposent une version du DGX A100 avec les nouveaux accélérateurs, qu’ils appelleront le DGX A100 640 Go. Ce nouveau DGX A100 dispose également de deux fois plus de DRAM et de stockage que son prédécesseur, doublant l’original de plus d’une manière.

Pendant ce temps, NVIDIA lance une version plus petite de la station de travail du DGX A100, qu’ils appellent la DGX Station A100. Successeur de la DGX Station originale basée sur Volta, la DGX Station A100 est essentiellement la moitié d’un DGX A100, avec 4 accélérateurs A100 et un seul processeur AMD EPYC. Le pré-briefing de presse de NVIDIA ne mentionnait pas la consommation électrique totale, mais on m’a dit qu’elle fonctionnait sur une prise murale standard, bien inférieure aux 6,5 kW du DGX A100.

NVIDIA note également que la DGX Station utilise un réfrigérant système de refroidissement, ce qui signifie qu’ils utilisent un refroidissement sous-ambiant (contrairement à la DGX Station d’origine, qui était simplement refroidie à l’eau). NVIDIA promet que malgré cela, la DGX Station A100 est silencieuse, il sera donc intéressant de voir à quel point cela est vrai compte tenu des problèmes de bruit habituels liés à la connexion d’un compresseur à une boucle de refroidissement d’ordinateur.

Les deux nouveaux systèmes DGX sont actuellement en production. Selon NVIDIA, les systèmes sont déjà utilisés pour certaines de leurs installations de supercalcul précédemment annoncées, telles que le système Cambridge-1. Sinon, la disponibilité commerciale commencera en janvier, avec une disponibilité plus large en février.