Avec le lancement de leur architecture Ampère et du nouvel accélérateur A100 à peine un mois derrière eux, NVIDIA annonce ce matin la version PCIe de leur accélérateur dans le cadre du démarrage de la conférence ISC Digital désormais virtuelle pour le calcul haute performance. Contrepartie plus droite de la version phare SXM4 de NVIDIA de l’accélérateur A100, la version PCie de l’A100 est conçue pour offrir l’A100 dans un format plus traditionnel aux clients qui ont besoin de quelque chose qu’ils peuvent brancher sur des serveurs standardisés. Globalement, le PCIe A100 offre les mêmes performances de pointe que le SXM4 A100, mais avec un TDP de 250 watts inférieur, les performances réelles ne seront pas aussi élevées.

En contrepartie obligatoire des accélérateurs à facteur de forme SXM de NVIDIA, les accélérateurs PCIe de NVIDIA servent à étoffer l’autre côté de la gamme d’accélérateurs de NVIDIA. Alors que NVIDIA vendrait volontiers tout le monde des accélérateurs basés sur SXM – qui comprendrait la carte mère NVIDIA HGX coûteuse – il y a encore de nombreux clients qui doivent pouvoir utiliser des accélérateurs GPU dans des serveurs standards montés en rack PCIe. Ou pour les charges de travail plus petites, les clients n’ont pas besoin du type d’évolutivité à 4 voies et plus élevé offert par les accélérateurs de facteur de forme SXM. Ainsi, avec leurs cartes PCIe, NVIDIA peut servir le reste du marché des accélérateurs que leurs produits SXM ne peuvent pas atteindre.

Le PCIe A100, à son tour, est un A100 à part entière, juste dans un facteur de forme différent et avec un TDP plus approprié. En termes de performances de pointe, le PCIe A100 est tout aussi rapide que son homologue SXM4; Cette fois, NVIDIA n’envoie pas cette configuration en configuration réduite avec des vitesses d’horloge inférieures ou moins de blocs fonctionnels que la version phare SXM4. En conséquence, la carte PCIe apporte tout ce que l’A100 offre à la table, avec la même concentration sur les opérations de tenseur, y compris les nouveaux formats TF32 et FP64 de haute précision, ainsi qu’une inférence d’entier encore plus rapide.

Comparaison des spécifications de l’accélérateur NVIDIA
A100
(PCIe)
A100
(SXM4)
V100
(PCIe)
P100
(PCIe)
FP32 CUDA Cores 6912 6912 5120 3584
Boost Clock 1,41 GHz 1,41 GHz 1,38 GHz 1,3 GHz
Horloge mémoire 2,4 Gbit / s HBM2 2,4 Gbit / s HBM2 1,75 Gbit / s HBM2 1,4 Gbit / s HBM2
Largeur du bus mémoire 5120 bits 5120 bits 4096 bits 4096 bits
Bande passante mémoire 1,6 To / sec 1,6 To / sec 900 Go / sec 720 Go / sec
VRAM 40 Go 40 Go 16 Go / 32 Go 16 GB
Précision unique 19.5 TFLOP 19.5 TFLOP 14.1 TFLOP 9.3 TFLOP
Double precision 9.7 TFLOP
(1/2 taux FP32)
9.7 TFLOP
(1/2 taux FP32)
7 TFLOP
(1/2 taux FP32)
4.7 TFLOP
(1/2 taux FP32)
INT8 Tenseur 624 TOP 624 TOP N / A N / A
FP16 Tensor 312 TFLOP 312 TFLOP 112 TFLOP N / A
TF32 Tensor 156 TFLOP 156 TFLOP N / A N / A
Performances relatives (version SXM) 90% 100% N / A N / A
Interconnecter NVLink 3
6 Liens? (300 Go / sec?)
NVLink 3
12 liens (600 Go / sec)
NVLink 2
4 liens (200 Go / sec)
NVLink 1
4 liens (160 Go / sec)
GPU A100
(826 mm2)
A100
(826 mm2)
GV100
(815 mm2)
GP100
(610 mm2)
Nombre de transistors 54.2B 54.2B 21.1B 15,3B
TDP 250W 400W 250W 300W
Processus de fabrication TSMC 7N TSMC 7N TSMC 12nm FFN TSMC 16nm FinFET
Interface PCIe 4.0 SXM4 PCIe 3.0 SXM
Architecture Ampère Ampère Volta Pascal

Mais parce que le facteur de forme de la carte d’extension à double emplacement est conçu pour les produits TDP inférieurs, offrant moins d’espace pour le refroidissement et généralement moins d’accès à l’alimentation, la version PCIe de l’A100 doit faire passer son TDP de 400W à 250W . Cela représente une réduction considérable de 38% de la consommation d’énergie et, par conséquent, le PCIe A100 ne pourra pas égaler les performances soutenues de son homologue SXM4 – c’est l’avantage d’aller avec un facteur de forme avec des budgets de puissance et de refroidissement plus élevés. . Tout compte fait, la version PCIe de l’A100 devrait fournir environ 90% des performances de la version SXM4 sur des charges de travail à processeur unique, ce qui, pour une si grande baisse du TDP, n’est pas un mauvais compromis.

Et sur cette note, je dois donner à NVIDIA le mérite qui lui revient: contrairement à la version PCIe de l’accélérateur V100, NVIDIA fait un bien meilleur travail de documentation de ces différences de performances. Cette fois-ci, NVIDIA note explicitement le chiffre de 90% dans leurs fiches techniques et les supports marketing associés. Il devrait donc y avoir beaucoup moins de confusion sur la façon dont la version PCIe de l’accélérateur se compare à la version SXM.

Outre le facteur de forme et les modifications TDP, la seule autre différence notable pour le PCIe A100 par rapport à la version SXM est le nombre de GPU connectés à NVLink pris en charge. Pour leur carte PCIe, NVIDIA utilise à nouveau des ponts NVLink connectés en haut des cartes A100, ce qui permet de relier deux (et seulement deux) cartes. La fiche produit de NVIDIA ne répertorie pas la bande passante totale disponible, mais comme le PCIe V100 prend en charge jusqu’à 100 Go / s dans chaque direction à l’aide de deux liaisons, le PCIe A100 et ses 3 connecteurs NVLink devraient être capables de faire 150 Go / s, sinon plus .

Sinon, le PCIe A100 est livré avec les réglages habituels du facteur de forme. La carte est entièrement refroidie passivement, conçue pour être utilisée avec des serveurs dotés de puissants ventilateurs de châssis. Et bien que cela ne soit pas illustré dans les photos officielles de NVIDIA, il existe des prises pour les connecteurs d’alimentation PCIe. Pendant ce temps, avec l’utilisation réduite de NVLink dans cette version de la carte, le support PCIe 4 natif d’A100 sera sans aucun doute d’une importance accrue ici, soulignant l’avantage qu’un couplage AMD Epyc + NVIDIA A100 a en ce moment car AMD est le seul fournisseur de serveurs x86 avec prise en charge PCIe 4.

En conclusion, bien que NVIDIA n’annonce pas de prix ou d’informations de disponibilité spécifiques aujourd’hui, les nouvelles cartes PCIe A100 devraient être expédiées prochainement. La compatibilité plus large de la carte PCIe a aidé NVIDIA à aligner plus de 50 victoires de serveurs à ce stade, 30 de ces serveurs devant être livrés cet été.