Avec beaucoup d’anticipation et plus que quelques fuites, NVIDIA annonce ce matin la prochaine génération de cartes vidéo, la série GeForce RTX 30. Basé sur la variante de jeu et graphique de l’architecture Ampère de NVIDIA et construit sur une version optimisée du processus 8 nm de Samsung, NVIDIA vante les nouvelles cartes comme offrant certains de leurs gains les plus importants en matière de performances de jeu. Pendant ce temps, la dernière génération de GeForce sera également dotée de nouvelles fonctionnalités pour différencier davantage les cartes et les devancer par rapport à la série RTX 20 de NVIDIA basée sur Turing.

Dès le départ, NVIDIA annonce les trois premières cartes pour constituer la nouvelle série RTX 30: les RTX 3090, RTX 3080 et RTX 3070. Ces cartes seront toutes lancées dans le prochain mois et demi – bien qu’à des moments légèrement différents – avec les RTX 3090 et RTX 3080 en tête. Les deux cartes, à leur tour, serviront de successeurs aux GeForce RTX 2080 Ti et RTX 2080 / 2080S de NVIDIA, atteignant de nouveaux sommets en termes de performances graphiques, tout en atteignant également de nouveaux sommets de prix dans le cas du RTX 3090.

La première carte à sortir sera la GeForce RTX 3080. Avec NVIDIA vantant jusqu’à 2 fois les performances de la RTX 2080, cette carte sera mise en vente le 17 septembre.e pour 700 $. Cela sera suivi une semaine plus tard par la GeFoce RTX 3090 encore plus puissante, qui sortira sur les tablettes le 24 septembre.e pour 1500 $. Enfin, la RTX 3070, qui se positionne davantage comme une carte sweet spot traditionnelle, arrivera le mois prochain à 499 $.

Comparaison des spécifications NVIDIA GeForce
RTX 3090 RTX 3080 RTX 3070 RTX 2080 Ti
Cœurs CUDA 10496 8704 5888 4352
Boost Clock 1,7 GHz 1,71 GHz 1,73 GHz 1545 MHz
Horloge mémoire GDDR6X à 19,5 Gbit / s GDDR6X à 19 Gbit / s GDDR6 16 Gbit / s GDDR6 14 Gbit / s
Largeur du bus mémoire 384 bits 320 bits 256 bits 352 bits
VRAM 24 Go 10 Go 8 Go 11 Go
Perf de précision unique. 35,7 TFLOP 29,8 TFLOP 20.4 TFLOP 13.4 TFLOP
Tensor Perf. (FP16) 285 TOP 238 TOP 163 TOP N / A
Ray Perf. 69 TFLOP 58 TFLOP 40 TFLOP ?
TDP 350 W 320 W 220 W 250 W
GPU GA102? GA102? GA104? TU102
Nombre de transistors 28B 28B ? 18,6B
Architecture Ampère Ampère Ampère Turing
Processus de fabrication Samsung 8nm Samsung 8nm Samsung 8nm TSMC 12 nm « FFN »
Date de lancement 24/09/2020 17/09/2020 10/2020 20/09/2018
Prix ​​de lancement PDSF: 1499 $ PDSF: 699 $ PDSF: 499 $ PDSF: 999 $
Fondateurs 1199 $

Ampère pour le jeu: GA102

Comme c’est traditionnellement le cas pour NVIDIA, la présentation publique de ce matin n’était pas une plongée architecturale profonde. Bien que la présentation purement virtuelle ait certainement été un changement de rythme pour une entreprise qui traite chaque lancement de carte vidéo comme une fête, NVIDIA s’en est tenu à son livre de lecture de lancement réussi. Cela signifie beaucoup de démonstrations, de témoignages et de vidéos promotionnelles, ainsi que des aperçus de haut niveau de plusieurs des technologies et des décisions de conception technique qui ont été nécessaires à la fabrication de leur dernière génération de GPU. Le résultat net est que nous avons une bonne idée de ce qui nous attend pour la série RTX 30, mais nous devrons attendre que NVIDIA propose des briefings techniques approfondis pour combler les vides et aller au cœur des choses en vrai. Style AnandTech.

À un niveau élevé, Ampere et le GPU GA102 utilisés dans ces cartes de premier niveau apportent plusieurs avancées matérielles majeures à la gamme NVIDIA. Le plus important est la taille toujours plus réduite des transistors, grâce à une version personnalisée du processus 8 nm de Samsung. Nous n’avons que des informations limitées sur ce processus – principalement parce qu’il n’a pas été utilisé trop d’endroits – mais à un niveau élevé, c’est le processus traditionnel non EUV le plus dense de Samsung, dérivé de leur processus 10 nm antérieur. Tout compte fait, NVIDIA a fini par être un peu un retardataire dans le passage à des processus plus petits, mais comme la société a redéveloppé une affinité pour expédier d’abord les gros GPU, ils ont besoin de rendements de plaquettes plus élevés (moins de défauts) pour sortir les puces. .

Dans tous les cas, pour les produits NVIDIA, le processus 8 nm de Samsung est un saut générationnel complet par rapport à leur processus précédent, le «FFN» 12 nm de TSMC, qui était lui-même une version optimisée du processus 16 nm de TSMC. Les densités de transistors de NVIDIA ont donc considérablement augmenté, ce qui se reflète dans le grand nombre de cœurs CUDA et d’autres matériels disponibles. Alors que les architectures de mi-génération comme Turing et Maxwell ont vu la plupart de leurs gains au niveau architectural, Ampère (comme Pascal avant lui) bénéficie grandement d’un véritable saut dans les processus lithographiques. Le seul hic dans tout cela est que Dennard Scaling est mort et ne revient pas.Ainsi, bien que NVIDIA puisse intégrer plus de transistors que jamais dans une puce, la consommation d’énergie augmente progressivement, ce qui se reflète dans les TDP des cartes.

NVIDIA ne nous a pas donné de tailles de matrice spécifiques pour le GA102, mais sur la base de certaines photos, nous sommes raisonnablement convaincus qu’il dépasse 500 mm2. Ce qui est nettement plus petit que le 754 mm2 TU102 de taille ridicule, mais il s’agit toujours d’une puce de taille importante et parmi les plus grosses puces produites par Samsung.

Passons maintenant à l’architecture Ampere elle-même. Introduit pour la première fois ce printemps dans le cadre de l’accélérateur A100 de NVIDIA, jusqu’à présent, nous n’avons vu Ampère que dans une perspective orientée calcul correspondante. Le GA100 manquait de plusieurs fonctionnalités graphiques afin que NVIDIA puisse maximiser la quantité d’espace de matrice alloué au calcul.Par conséquent, bien que les GPU Ampere axés sur les graphiques tels que GA102 soient toujours membres de la famille Ampere, il existe un nombre important de distinctions ou de différences entre les deux. C’est-à-dire que NVIDIA a été en mesure de garder beaucoup de secrets sur le côté jeu d’Ampère jusqu’à présent.

Du point de vue du calcul, Ampère ressemblait un peu à Volta avant lui, et on peut en dire autant du point de vue graphique. GA102 n’introduit pas de nouveaux blocs fonctionnels exotiques comme les cœurs RT ou les cœurs tensoriels, mais leurs capacités et leurs tailles relatives ont été modifiées. Le changement le plus notable ici est que, comme l’Ampère GA100, les pièces de jeu Ampere héritent de cœurs de tenseur mis à jour et plus puissants. Un seul GA102 SM peut fournir le double du débit de tenseur d’un Turing SM – bien qu’il ait deux fois moins de cœurs de tenseur distincts – et peut prendre en charge des fonctionnalités telles que la rareté pour des performances supplémentaires, soulignant l’engagement de NVIDIA en matière de réseautage neuronal et de performances IA. La technologie DLSS (Deep Learning Super Sampling) de NVIDIA repose en partie sur cela, et NVIDIA cherche toujours d’autres moyens de faire bon usage de ses cœurs de tenseur.

Les noyaux RT ont également été renforcés, bien que nous ne soyons pas certains de notre degré. En plus d’en avoir plus globalement en raison du GA102 ayant un plus grand nombre de SM, on dit que les cœurs RT individuels sont plus rapides. Ce qui est une très bonne nouvelle pour les ambitions du lancer de rayons de l’industrie du jeu vidéo, car le lancer de rayons avait un coût de performance élevé sur les cartes de la série RTX 20. Cela dit, rien de ce que fait NVIDIA ne va éliminer complètement cette pénalité – le traçage des rayons est beaucoup de travail, point final – mais plus de matériel rééquilibré peut aider à réduire ce coût.

GDDR6X: Cuisiner avec PAM

En dehors de l’architecture GPU principale elle-même, GA102 introduit également la prise en charge d’un autre nouveau type de mémoire: GDDR6X. Une évolution de GDDR6 développée par Micron et NVIDIA, GDDR6X est conçu pour permettre des vitesses de bus mémoire plus élevées (et donc plus de bande passante mémoire) en utilisant une signalisation multi-niveaux sur le bus mémoire. En utilisant cette stratégie, NVIDIA et Micron peuvent continuer à repousser les limites des technologies de mémoire discrète rentables, et ainsi continuer à nourrir la bête qu’est la dernière génération de GPU de NVIDIA. Il s’agit de la troisième technologie de mémoire en autant de générations pour NVIDIA, passant de GDDR5X à GDDR6 à GDDR6X

Micron a accidentellement renversé les haricots sur le sujet le mois dernier, lorsqu’ils ont publié quelques premiers documents techniques sur la technologie. En employant la modulation d’amplitude d’impulsion-4 (PAM4), GDDR6X est capable de transmettre l’un des quatre symboles différents par horloge, en déplaçant essentiellement deux bits par horloge au lieu d’un bit habituel par horloge. Par souci de brièveté, je ne relancerai pas complètement cette discussion, mais je passerai en revue les faits saillants.

À très haut niveau, ce que fait PAM4 par rapport à NRZ (codage binaire) est de prendre une page du playbook MLC NAND et de doubler le nombre d’états électriques qu’une seule cellule (ou dans ce cas, la transmission) contiendra. Plutôt que la signalisation 0/1 haute / basse traditionnelle, PAM4 utilise 4 niveaux de signal, de sorte qu’un signal peut coder pour quatre modèles de deux bits possibles: 00/01/10/11. Cela permet à PAM4 de transporter deux fois plus de données que NRZ sans avoir à doubler la bande passante de transmission, ce qui aurait présenté un défi encore plus grand.


NRZ vs PAM4 (schéma de base avec l’autorisation d’Intel)

PAM4 à son tour nécessite des contrôleurs de mémoire et des dispositifs de mémoire plus complexes pour gérer les multiples états de signal, mais il recule également sur la fréquence du bus de mémoire, simplifiant certains autres aspects. Le plus important pour NVIDIA à ce stade est peut-être qu’il est plus économe en énergie, consommant environ 15% d’énergie en moins par bit de bande passante. Certes, la consommation d’énergie totale de la DRAM est toujours en hausse car elle est plus que compensée par les gains de bande passante, mais chaque joule économisé sur la DRAM est un autre joule qui peut être dédié au GPU à la place.

Selon les documents de Micron, la société a conçu la première génération de leur GDDR6X pour aller à 21 Gbps; Cependant, NVIDIA garde les choses un peu plus conservatrices et s’arrête à 19,5 Gbps pour le RTX 3090 et à 19 Gbps pour le RTX 3080. Même à ces vitesses, cela représente toujours une augmentation de 36% à 39% de la bande passante mémoire par rapport à la génération précédente de cartes, en supposant des bus mémoire de taille identique. Dans l’ensemble, ce type de progrès reste l’exception à la norme; Historiquement parlant, nous ne voyons généralement pas de gains de bande passante mémoire aussi importants au cours des générations successives. Mais avec beaucoup plus de SM à nourrir, je ne peux qu’imaginer que les équipes produit de NVIDIA sont ravies de l’avoir.

GDDR6X a cependant un inconvénient quelque peu immédiat: la capacité. Bien que Micron ait des plans pour des puces 16 Gbit à l’avenir, pour commencer aujourd’hui, ils ne fabriquent que des puces 8 Gbit à l’avenir. C’est la même densité que les puces de mémoire sur les cartes de la série RTX 20 de NVIDIA, et leurs cartes de la série GTX 1000 d’ailleurs. Il n’y a donc pas de mise à niveau de la capacité mémoire «libre», du moins pour ces cartes initiales. Le RTX 3080 ne reçoit que 10 Go de VRAM contre 8 Go sur RTX 2080, et cela grâce à l’utilisation d’un bus mémoire de 320 bits plus grand (c’est-à-dire 10 puces au lieu de 8). Pendant ce temps, le RTX 3090 obtient 24 Go de VRAM, mais uniquement en utilisant 12 paires de puces en mode clamshell sur un bus mémoire de 384 bits, soit plus de deux fois plus de puces de mémoire que sur RTX 2080 Ti.

HDMI 2.1 est activé, VirtualLink est désactivé

Enfin, sur le front d’E / S d’affichage, Ampere et les nouvelles cartes de la série GeForce RTX 30 apportent ici quelques changements notables. Le plus important est que, enfin, le support HDMI 2.1 est arrivé. Déjà livré dans les téléviseurs (et devrait être livré dans les consoles de cette année), HDMI 2.1 apporte quelques fonctionnalités à la table, notamment la prise en charge d’une bande passante beaucoup plus grande. Un câble HDMI 2.1 peut transporter jusqu’à 48 Gbps de données – plus de 2,6 fois plus que HDMI 2.0 – permettant des résolutions d’affichage et des taux de rafraîchissement beaucoup plus élevés, tels que des téléviseurs 8K ou des écrans 4K fonctionnant à plus de 165 Hz. Cette augmentation significative de la bande passante place même HDMI avant DisplayPort, du moins pour le moment; DisplayPort 1.4 n’offre qu’environ 66% de la bande passante, et bien que DisplayPort 2.0 finisse par battre cela, il semblerait qu’Ampère soit juste un peu trop tôt pour cette technologie.

Cela dit, j’attends toujours la confirmation de NVIDIA pour savoir s’ils prennent en charge un débit de signalisation complet de 48 Gbps avec leurs nouvelles cartes GeForce. Certains téléviseurs HDMI 2.1 sont livrés avec la prise en charge de débits de données inférieurs, il n’est donc pas inconcevable que NVIDIA puisse faire de même ici.

L’autre fonctionnalité de marque de HDMI 2.1 du point de vue du jeu est la prise en charge des taux de rafraîchissement variables via HDMI. Cependant, cette fonctionnalité n’est pas exclusive à HDMI 2.1 et a en effet déjà été rétroportée sur les cartes RTX 20 de NVIDIA, donc bien que sa prise en charge soit plus utile ici avec la plus grande bande passante du câble, ce n’est techniquement pas une nouvelle fonctionnalité pour les cartes NVIDIA .

Pendant ce temps, les ports VirtualLink, qui ont été introduits sur la série de cartes RTX 20, sont en voie de disparition. La tentative de l’industrie de créer un port combinant vidéo, données et alimentation dans un seul câble pour les casques VR a échoué, et aucun des 3 grands fabricants de casques (Oculus, HTC, Valve) n’a utilisé ce port. Vous ne trouverez donc pas le port de retour sur les cartes de la série RTX 30.

Enfin, il semble que le support SLI restera avec nous, pour au moins une génération supplémentaire. La carte RTX 3090 de NVIDIA comprend un seul connecteur NVLInk pour SLI et d’autres fins multi-GPU. Je soupçonne que c’est plus un jeu pour les utilisateurs de calcul – dont beaucoup vont baver sur une carte avec 24 Go de VRAM – mais NVIDIA n’est jamais du genre à laisser passer une opportunité de vente incitative sur le front graphique.