Il semblerait que Micron ce matin a accidentellement renversé les haricots sur l’avenir des technologies de mémoire de carte graphique – et a sorti l’une des cartes vidéo RTX de nouvelle génération de NVIDIA dans le processus. Dans une note technique publiée sur leur site Web, baptisée «La demande de solutions à ultra-bande passante», Micron a détaillé son portefeuille de technologies de mémoire à large bande passante et les besoins du marché. Ce dossier contenait des informations sur la technologie de mémoire GDDR6X inédite, ainsi que des informations sur ce qui semble être la première carte à l’utiliser, la GeForce RTX 3090 de NVIDIA.

Le document semble avoir été posté un mois (ou plus) à l’avance, compte tenu de la mention de la carte NVIDIA, dont nous ne nous attendons pas à ce qu’elle soit annoncée plus tôt que lors de l’événement de septembre de NVIDIA. En outre, le document renvoie à d’autres notes techniques Micron encore inédites impliquant GDDR6X. Néanmoins, le document provient directement des serveurs Web publics de Micron, nous avons donc aujourd’hui un aperçu inattendu des prochains plans de mémoire GDDR de Micron.

Quoi qu’il en soit, comme il s’agit d’un aperçu du marché plutôt que d’une plongée technique approfondie, les détails sur GDDR6X sont minces. Le document renvoie à un autre document non publié, «Doubler les performances d’E / S avec PAM4: Micron innove GDDR6X pour accélérer la mémoire graphique», qui contiendrait vraisemblablement plus de détails sur GDDR6X. Néanmoins, même cet aperçu de haut niveau nous donne une idée de base de ce que Micron a en réserve pour plus tard cette année.

L’innovation clé pour GDDR6X semble être que Micron passe de l’utilisation du codage POD135 sur le bus mémoire – un format de codage binaire (deux états) – à un codage à quatre états sous la forme de Pulse-Amplitude Modulation 4 (PAM4). En bref, Micron doublerait le nombre d’états de signal dans le bus mémoire GDDR6X, lui permettant de transmettre deux fois plus de données par horloge.

Mathématiques de la mémoire GPU
GDDR6X
(RTX 3080)
GDDR6
(Titan RTX)
GDDR5X
(Titan Xp)
HBM2
(Titan V)
Capacité totale 12 Go 12 Go 12 Go 12 Go
N / B par broche 21 Gbit / s 14 Gbit / s 11,4 Gbit / s 1,7 Gbit / s
Capacité de puce 1 Go (8 Go) 1 Go (8 Go) 1 Go (8 Go) 4 Go (32 Go)
Nbre de puces / KGSD 12 12 12 3
N / B par puce / pile 84 Go / s 56 Go / s 45,6 Go / s 217,6 Go / s
Largeur du bus 384 bits 384 bits 352 bits 3072 bits
Total N / B 1008 Go / s 672 Go / s 548 Go / s 652,8 Go / s
Tension DRAM ? 1,35 V 1,35 V 1,2 V
Débit de données QDR QDR DDR DDR
Signalisation PAM4 Binaire Binaire Binaire

PAM4 en lui-même n’est pas une nouvelle technologie et a été utilisé dans d’autres appareils haut de gamme comme les émetteurs-récepteurs réseau bien avant maintenant. Plus récemment, le PCI-SIG a annoncé qu’il adopterait le codage PAM4 pour PCIe 6.0. Donc, pour une discussion un peu plus détaillée sur PAM4, voici notre explication tirée de notre amorce PCIe 6.0:

À très haut niveau, ce que fait PAM4 par rapport à NRZ (codage binaire) est de prendre une page du playbook MLC NAND et de doubler le nombre d’états électriques qu’une seule cellule (ou dans ce cas, la transmission) contiendra. Plutôt que la signalisation 0/1 haute / basse traditionnelle, PAM4 utilise 4 niveaux de signal, de sorte qu’un signal peut encoder pour quatre modèles de deux bits possibles: 00/01/10/11. Cela permet à PAM4 de transporter deux fois plus de données que NRZ sans avoir à doubler la bande passante de transmission, ce qui pour PCIe 6.0 aurait abouti à une fréquence d’environ 30 GHz (!).


NRZ vs PAM4 (schéma de base avec l’autorisation d’Intel)

PAM4 en lui-même n’est pas une nouvelle technologie, mais jusqu’à présent, c’était le domaine des normes de réseau ultra-haut de gamme comme l’Ethernet 200G, où la quantité d’espace disponible pour plus de canaux physiques est encore plus limitée. En conséquence, l’industrie a déjà quelques années d’expérience de travail avec la norme de signalisation, et avec leurs propres besoins en bande passante continuant de croître, le PCI-SIG a décidé de l’introduire à l’intérieur du châssis en basant la prochaine génération de PCIe sur celui-ci. .

Le compromis pour utiliser PAM4 est bien sûr le coût. Même avec sa plus grande bande passante par Hz, PAM4 coûte actuellement plus cher à implémenter à presque tous les niveaux, du PHY à la couche physique. C’est pourquoi il n’a pas pris d’assaut le monde et pourquoi NRZ continue d’être utilisé ailleurs. L’échelle de déploiement de masse de PCIe aidera bien sûr beaucoup ici – les économies d’échelle comptent toujours pour beaucoup – mais il sera intéressant de voir où en seront les choses dans quelques années, une fois que PCIe 6.0 sera en plein essor.

Jusqu’à présent, la signalisation PAM4 n’a été utilisée que pour les bus de réseau et d’extension, donc l’utiliser pour un bus mémoire, bien qu’une extension logique, représenterait un grand saut technologique. Maintenant, Micron doit développer une mémoire qui peut non seulement nettoyer la modulation PAM4 – ce qui n’est pas une tâche simple – mais NVIDIA a besoin d’un contrôleur de mémoire correspondant à l’autre extrémité. C’est faisable, et probablement inévitable, mais c’est un grand changement par rapport à la façon dont les bus mémoire fonctionnaient traditionnellement – même les bus à grande vitesse comme ceux utilisés pour GDDR.

Selon le mémoire de Micron, ils s’attendent à obtenir GDDR6X à 21 Gbps / pin, du moins pour commencer. C’est loin de doubler le débit actuel de 16 Gbit / s / broche de GDDR6, mais c’est aussi un débit de données qui serait fondé sur les limites de PAM4 et de la DRAM. PAM4 lui-même est plus facile à réaliser que le codage binaire au même débit de données total, mais devoir déterminer avec précision quatre états au lieu de deux est à l’inverse une tâche plus difficile. Un saut plus petit n’est donc pas trop surprenant.

Pendant ce temps, il laisse la fréquence DRAM principale comme une question persistante. Pour rappel, les performances des cellules DRAM ont plus ou moins stagné il y a des années – vous ne pouvez piloter un dispositif mixte transistor / condensateur que si rapidement – de sorte que les nouvelles technologies de mémoire ont été un parallélisme toujours plus grand. Dans le cas des technologies GDDR, par exemple, cela signifie que le GDDR6 16Gbps a la même fréquence d’horloge de cœur que le GDDR5 8Gbps. Donc, pour atteindre un débit de données de 21 Gbps, il n’est pas clair si Micron pousse la vitesse d’horloge de la DRAM principale plus haut, ou s’il la divise à nouveau et s’appuie sur plus de parallélisme (par exemple, une taille de pré-retrait plus grande). Compte tenu de ce dont la mémoire GDDR5 de dernière génération était capable, je soupçonne que Micron ne fait que pomper la vitesse d’horloge du cœur pour GDDR6X, mais d’une manière ou d’une autre, il sera intéressant de voir ce qu’ils font.

L’autre grand joker pour le moment sera les coûts. Comme je l’ai mentionné plus tôt, PAM4 existe depuis un certain temps; il est tout simplement coûteux à utiliser en raison de l’ingénierie et du silicium requis. Combien l’ajout de PAM4 à une puce mémoire ajoutera-t-il à son coût? Il s’agit clairement d’une technologie de mémoire haut de gamme, même si en même temps il y a fort à parier que Micron n’irait pas dans cette voie si cela coûterait autant que HBM, qui est déjà devenu prohibitif pour la vidéo grand public. cartes.

Ensuite, il y a une dernière pépite d’informations intéressante sur GDDR6X dans le livre blanc de Micron, à savoir la consommation d’énergie. L’un des avantages indirects de PAM4 est qu’en exécutant un bus à une fréquence d’horloge inférieure à celle qui serait autrement nécessaire, les besoins de consommation d’énergie diminuent. Ce n’est en aucun cas une différence double, car la complexité du codage PAM4 consomme de l’énergie par d’autres moyens, mais elle est néanmoins plus efficace. Et selon Micron, cela va également se jouer pour GDDR6X, GDDR6X ayant un coût énergétique par bit légèrement inférieur.

Selon le mémoire de Micron, nous examinons une puissance moyenne d’appareil d’environ 7,25 picojoules par octet pour GDDR6X, contre 7,5 pour GDDR6. Selon ces données, l’efficacité énergétique est également relativement proche de HBM2, bien que bien derrière HBM2E. Cela dit, comme il s’agit d’efficacité par octet, cela signifie que la consommation d’énergie réelle est fonction de la bande passante; et bien que GDDR6X soit un peu plus efficace, il devrait être beaucoup plus rapide. Donc, selon les données de Micron, la consommation électrique totale de GDDR6X va être supérieure à GDDR6, d’environ 25%.

Dans l’ensemble, Micron présente PAM4 comme l’évolution naturelle de la technologie de mémoire GDDR. Et bien que cela soit enveloppé dans un marketing technique évident, il y a une pépite de vérité, dans la mesure où les débits de données officiels pour GDDR6 dépassent toujours 16 Gbps. Rambus, pour sa part, a démontré une GDDR6 18 Gbit / s dans les laboratoires, mais de l’extérieur, il n’est pas clair pour le moment si cela est commercialement viable – aucun fournisseur de mémoire ne dispose actuellement de puces 18 Gbit / s dans son catalogue.

Mais quel que soit le point final de la GDDR6 vanille, l’industrie de la mémoire dans son ensemble a longtemps été à la recherche de la vitesse des bus mémoire. Les normes successives ont utilisé diverses techniques pour améliorer les débits de données, telles que le QDR de GDDR6, mais GDDR est toujours resté une norme d’E / S asymétrique utilisant le codage binaire. Avec des taux de transfert par broche désormais supérieurs à 16 GT / seconde, l’un de ces deux principes fondamentaux devra éventuellement changer, comme nous l’avons vu dans d’autres domaines utilisant des E / S à haut débit.


Forum technique et exposition AMD 2011, examen des options de mémoire après GDDR5

PAM4, à son tour, est susceptible d’être le moindre de deux maux. Jeter le codage binaire pour PAM4 est, à tout le moins, l’option la plus économe en énergie. L’autre solution aurait été de supprimer des E / S asymétriques pour la signalisation différentielle, ce que l’industrie de la mémoire tient à éviter. La signalisation différentielle fonctionne et fonctionne bien – GDDR6 l’utilise même pour le cadencement (et non pour les transferts de mémoire) – mais elle consomme beaucoup de broches et encore plus d’énergie. C’est en partie la raison pour laquelle HBM est venu. Ainsi, dans un sens, PAM4 peut être considéré comme un autre moyen d’éviter la signalisation différentielle sur GDDR pour au moins une autre génération.

Enfin, et pendant que nous parlons des normes de mémoire, l’absence manifeste de JEDEC dans le document de Micron mérite d’être mentionnée. L’organisation commerciale et l’organisme de normalisation sont responsables de la définition des normes de mémoire GDDR, y compris GDDR6, ainsi que de la tentative précédente de Micron de dériver une technologie de mémoire, GDDR5X. Compte tenu de la nature prématurée de la publication du dossier, il n’est pas clair si GDDR6X est une autre norme JEDEC qui est actuellement en cours de développement privé avant un lancement public, ou si Micron se lance vraiment en solo et a développé son propre standard de mémoire.

NVIDIA GeForce RTX 3090: 12 Go de GDDR6X avec près de 1 To de bande passante mémoire?

Enfin, parlons du deuxième secret révélé dans le mémoire de Micron, la GeForce RTX 3090 de NVIDIA.La carte vidéo probablement haut de gamme est apparemment le cas d’utilisation phare de Micron pour GDDR6X, et la société a utilement présenté sa configuration de mémoire typique.

En bref, selon Micron, la carte vidéo sera livrée avec 12 Go de GDDR6X dans une configuration de bus mémoire 384 bits. Cette mémoire, à son tour, sera cadencée entre 19 Gbit / s et 21 Gbit / s, ce qui, à l’extrémité supérieure de cette plage, donnerait à la carte 1008 Go / s de bande passante mémoire, juste en dessous d’un vrai 1 To / s (1024 Go / s) de bande passante.

Comparaison des spécifications NVIDIA GeForce
RTX 3090 RTX 2080 Ti RTX 2080 GTX 1080 Ti
Cœurs CUDA Beaucoup 4352 2944 3584
Horloge mémoire GDDR6X 19 à 21 Gbit / s GDDR6 14 Gbit / s GDDR6 14 Gbit / s GDDR5X 11 Gbit / s
Largeur du bus mémoire 384 bits 352 bits 256 bits 352 bits
Bande passante mémoire 912 à 1008 Go / sec 616 Go / s 448 Go / s 484 Go / s
VRAM 12 Go 11 Go 8 Go 11 Go
Architecture Ampère Turing Turing Pascal
Processus de fabrication Brillant TSMC 12 nm « FFN » TSMC 12 nm « FFN » TSMC 16 nm
Date de lancement Automne 2020? 27/09/2018 20/09/2018 03/10/2017

Par rapport aux cartes GeForce de la génération actuelle de NVIDIA, cela représenterait une augmentation considérable de la bande passante mémoire. Au minimum, nous recherchons une bande passante 36% supérieure à celle d’une GeForce RTX 2080 Ti, et dans le haut de gamme de cette estimation, ce chiffre devient un bond de 50% de la bande passante. C’est toujours bien en dessous de ce que l’accélérateur A100 basé sur Ampère de NVIDIA peut faire (1,6 To / s), mais ce serait phénoménal pour une carte utilisant une mémoire de type GDDR sur un bus 384 bits. Et il va sans dire que cela contribuerait grandement à nourrir la bête qui est une carte vidéo haut de gamme de nouvelle génération.

En tout cas, ce n’est clairement pas le dernier mot pour GDDR6X ou le RTX 3090 de NVIDIA, nous aurons donc plus à attendre à l’approche de l’événement de septembre de NVIDIA.

Crédit d’image d’en-tête: Micron, Bare DRAM (DDR5) Die