L’équipe AMD nous a surpris ici. Ce qui semblait être une keynote Computex tout à fait normale s’est transformé en une démonstration incroyable de ce qu’AMD teste en laboratoire avec les nouvelles technologies 3D Fabric de TSMC. Nous avons déjà couvert 3D Fabric, mais AMD le met à profit en empilant ses processeurs avec un cache supplémentaire, permettant une bande passante ultra-rapide et de meilleures performances de jeu. C’est en tout cas la revendication, et AMD a présenté son nouveau processeur de démonstration sur scène au Computex. Voici un aperçu plus détaillé de ce que c’est réellement.

Chiplets 3D: la prochaine étape

AMD a annoncé qu’il examinait les technologies d’empilement 3D avec «  X3D  » en mars 2020 lors de sa journée des analystes financiers, avec un diagramme très étrange montrant un processeur de chipset avec ce qui ressemblait à des piles de HBM ou à une sorte de mémoire à l’extérieur. À l’époque, AMD a déclaré qu’il s’agissait d’un mélange de technologies de packaging 2.5D et 3D permettant une densité de bande passante 10x ou plus. Le «X» de «X3D» était censé être synonyme d’hybride, et la technologie était définie pour «l’avenir». Depuis lors, TSMC a annoncé sa gamme de technologies 3D Fabric, un nom large pour sa combinaison d’offres d’intégration 2.5D et 3D.

Aujourd’hui, AMD a présenté la première étape de son parcours de puces 3D. La première application est un cache empilé au-dessus d’un chipset de processeur standard. Sur scène, Lisa Su a présenté l’un des processeurs à double puce Ryzen 5000 d’AMD avec des cœurs Zen 3. Sur l’un des chiplets de calcul, une SRAM de 64 Mo construite sur le 7 nm de TSMC a été intégrée sur le dessus, triplant efficacement la quantité de cache à laquelle les cœurs ont accès.

Cela signifie que le chipset Ryzen 5000 d’origine, avec huit cœurs ayant accès à 32 Mo de cache L3, devient maintenant un complexe à huit cœurs avec accès à 96 Mo de cache L3. Les deux matrices sont liées avec Through Silicon Vias (TSV), transmettant l’alimentation et les données entre les deux. AMD affirme que la bande passante totale du cache L3 augmente au-delà de 2 To / s, ce qui serait techniquement plus rapide que le cache L1 sur la puce (mais avec une latence plus élevée).

Dans le cadre du diagramme de puce, les TSV seraient une liaison directe cuivre-cuivre. La puce d’antémémoire n’est pas de la même taille que le noyau complexe et, par conséquent, du silicium structurel supplémentaire est nécessaire pour garantir qu’il y a une pression égale à la fois sur la puce de calcul inférieure et la puce d’antémémoire supérieure. Les deux matrices sont diluées, dans le but d’activer le nouveau chiplet dans le même substrat et la même technologie de dissipateur thermique actuellement utilisée dans les processeurs Ryzen 5000.

Le processeur prototype présenté sur scène avait l’un de ses puces utilisant cette nouvelle technologie de mise en cache. L’autre chiplet a été laissé en standard pour montrer la différence, et le seul chiplet qui avait le dé de cache «exposé» l’a rendu évident et comparable avec le chiplet non intégré régulier. Le PDG, le Dr Lisa Su, a déclaré que la SRAM de 64 Mo dans ce cas est une conception de 6 mm x 6 mm (36 mm2), ce qui la place à un peu moins de la moitié de la surface de la matrice d’un chipset Zen 3 complet.

Dans un produit complet, Lisa a expliqué que tous les chiplets auraient le cache empilé activé, pour 96 Mo de cache par chiplet, ou 192 Mo au total pour un processeur comme celui-ci qui a 12 ou 16 cœurs.

Dans le cadre de la technologie, il a été expliqué que cet emballage permet une densité d’interconnexion> 200x par rapport à un emballage 2D ordinaire (ce que nous savons déjà de l’empilement HBM), une augmentation de densité> 15x par rapport à la technologie microbump (un coup droit à travers le arc du Foveros d’Intel), et une efficacité d’interconnexion> 3 fois supérieure à celle des microbumps. L’interface TSV est une interconnexion directe en cuivre die-to-die, ce qui signifie qu’AMD utilise la technologie Chip-on-Wafer de TSMC. Le Dr Su a affirmé sur scène que ces caractéristiques en faisaient la technologie d’empilement de puces «active-sur-active» la plus avancée et la plus flexible de l’industrie.

En ce qui concerne les démonstrations de performances, AMD a comparé un avant et un après l’utilisation de Gears of War 5. D’un côté se trouvait un processeur 12 cœurs Ryzen 9 5900X standard, tandis que l’autre était un prototype utilisant le nouveau V-Cache 3D basé sur un Ryzen 9 5900X. . Les deux processeurs étaient fixés à 4 GHz et associés à une carte graphique sans nom.

Dans ce scénario, le point de comparaison est qu’un processeur dispose de 64 Mo de cache L3, tandis que l’autre a 192 Mo de cache L3. L’un des arguments de vente des processeurs Ryzen 5000 était le cache L3 étendu disponible pour chaque processeur pour améliorer les performances de jeu, et le déplacer jusqu’à 96 Mo par chiplet étend encore cet avantage, AMD affichant un gain de + 12% FPS (184 FPS vs 206 FPS) avec l’augmentation de la taille du cache à 1080p. Sur une série de jeux, AMD a revendiqué + 15% de performances de jeu moyennes:

  • DOTA2 (Vulkan): + 18%
  • Engrenages 5 (DX12): + 12%
  • Monster Hunter World (DX11): + 25%
  • League of Legends (DX11): + 4%
  • Fortnite (DX12): + 17%

Ce n’est en aucun cas une liste exhaustive, mais elle est intéressante à lire. L’affirmation d’AMD ici est qu’une augmentation de + 15% équivaut à un saut de génération d’architecture complète, permettant effectivement une amélioration rare grâce à des différences de conception philosophiques. Ici à AnandTech nous tenons à noter qu’à mesure qu’il devient plus difficile d’explorer de nouveaux nœuds de processus, les améliorations de la conception philosophique pourraient devenir le principal moteur des performances futures.

AMD affirme avoir fait de grands progrès avec la technologie et devrait la mettre en production avec ses processeurs haut de gamme d’ici la fin de l’année. Il n’était pas précisé sur quels produits il s’agirait, qu’il s’agisse d’un consommateur ou d’une entreprise. À propos de cela, AMD a déclaré que Zen 4 devrait être lancé en 2022.

L’analyse AnandTech

Eh bien, c’était inattendu. Nous savions qu’AMD allait investir dans la technologie 3D Fabric de TSMC, mais je suppose que nous ne nous attendions pas à ce que ce soit si tôt ou avec une démo sur un processeur de bureau en premier.

En commençant par la technologie, il s’agit clairement du SoIC Chip-on-Wafer de TSMC en action, mais avec seulement deux couches. TSMC a démontré douze couches, mais il s’agissait de couches non actives. Le problème avec l’empilement du silicium va être dans l’activité, et par la suite thermique. Nous avons vu avec d’autres matériels TSV empilés, comme HBM, que SRAM / mémoire / cache est le véhicule parfait pour cela car il n’ajoute pas cette beaucoup aux exigences thermiques du processeur. L’inconvénient est que le cache que vous empilez sur le dessus n’est guère plus qu’un simple cache.

C’est là que l’empilage d’AMD et d’Intel diffère. En utilisant des TSV plutôt que des microbumps, AMD peut obtenir une plus grande bande passante et une plus grande efficacité énergétique des TSV, mais aussi empiler plusieurs puces si nécessaire. Les TSV peuvent transporter de l’énergie et des données, mais vous devez toujours concevoir autour des deux pour la signalisation croisée. La technologie Foveros d’Intel, bien qu’elle soit également un empilement 3D, repose sur des microbumps entre les deux puces. Ceux-ci sont plus gros et gourmands en énergie, mais permettent à Intel de mettre de la logique à la fois sur la matrice inférieure et la matrice supérieure. L’autre élément est le thermique – généralement, vous voulez que la logique sur la puce supérieure gère mieux les thermiques car elle est proche du dissipateur thermique / dissipateur thermique, mais l’éloignement de la logique du substrat signifie que l’alimentation doit être transportée jusqu’à la puce supérieure. . Intel espère combiner micropompes et TSV dans les technologies à venir, et TSMC a une feuille de route similaire pour l’avenir pour ses clients.

Passant au chipset lui-même, il a été affirmé que le chipset de cache L3 de 64 Mo mesure 6 mm x 6 mm, ou 36 mm2, et est construit sur TSMC 7 nm. Le fait qu’il soit construit sur TSMC 7nm va être un point critique ici – vous pourriez penser qu’un chiplet de cache pourrait être mieux adapté à un nœud de processus moins cher. Le compromis entre le coût est la puissance et la surface de la matrice (le rendement à une taille de matrice aussi petite ne vaut pas la peine d’être pris en compte). Si AMD doit fabriquer ces puces de cache sur TSMC 7 nm, cela signifie qu’un Zen 3 avec cache supplémentaire nécessite 80,7 mm2 pour le chipset Zen 3 comme d’habitude, puis 36 mm2 supplémentaires pour le cache, nécessitant en fait 45% de silicium en plus par processeur. Bien que nous soyons actuellement confrontés à une pénurie de silicium, cela pourrait avoir un effet sur le nombre de processeurs mis à disposition pour une utilisation plus large. C’est peut-être la raison pour laquelle AMD a déclaré qu’elle examinait d’abord les produits «haut de gamme».

Maintenant, ajouter 64 Mo de cache à une puce qui a déjà 32 Mo de cache L3 n’est pas aussi simple qu’il y paraît. Si AMD l’intègre directement en tant que contiguïté au cache L3, alors nous avons un cache L3 à deux niveaux. L’accès à ces 64 Mo nécessite probablement plus de puissance, mais cela offre une plus grande bande passante. Cela dépendra de la charge de travail si les 32 Mo normaux suffisent, par rapport aux 64 Mo supplémentaires fournis par la matrice empilée. Nous pourrions voir les 64 Mo supplémentaires considérés comme un cache L4 équivalent, mais le problème ici est que pour que ces 64 Mo supplémentaires soient transférés vers la mémoire principale, ils doivent passer par le chiplet principal. C’est une puissance supplémentaire à noter. Je suis très intéressé de voir comment le profil de mémoire du point de vue d’un noyau sort avec ce chipset supplémentaire, et comment AMD l’intègre dans la structure. AMD a déclaré qu’il s’agissait d’une conception basée sur la SRAM, donc malheureusement, ce n’est pas quelque chose d’extraordinaire comme la mémoire persistante, ce qui aurait été une philosophie de conception complètement différente. En s’en tenant à SRAM, cela signifie qu’au moins, il peut améliorer les performances de manière transparente.

En ce qui concerne les performances, nous avons vu la profondeur du cache L3 améliorer les performances de jeu, à la fois pour les jeux discrets et intégrés. Cependant, l’augmentation de la profondeur du cache L3 ne fait pas grand-chose d’autre pour les performances. Cela a été mieux illustré dans notre examen des processeurs Intel Broadwell, avec 128 Mo de cache L4 (~ 77 mm2 sur Intel 22 nm), où le cache supplémentaire n’améliorait que les tests de jeu et de compression / décompression. Il sera intéressant de voir comment AMD commercialise la technologie au-delà du jeu.

Enfin, interception dans le courant dominant – AMD se dit prêt à commencer à intégrer la technologie dans son portefeuille haut de gamme avec une production en fin d’année. AMD a déclaré que le lancement de Zen 4 sur 5 nm est en 2022. Sur la base des échelles de temps précédentes, nous avons prédit que la prochaine famille de processeurs d’AMD serait à peu près un lancement en février 2022. Que ce soit Zen 4, ce n’est pas clair pour le moment, mais Zen 4 est également sur 5 nm et AMD présente ce V-Cache 3D sur 7 nm. On ne sait pas si AMD envisage de monétiser cette fonctionnalité sur 7 nm, ou s’il pourrait combiner un chiplet Zen 4 de 5 nm avec un chiplet de cache de 7 nm de 64 Mo. Il ne serait pas trop difficile de combiner les deux, mais je soupçonne qu’AMD voudra peut-être pousser sa technologie de mise en cache dans plus de produits haut de gamme que le bureau Ryzen. Nous pourrions voir des éditions spéciales uniques au fur et à mesure que la technologie évolue dans la pile.

Pour conclure, j’ai un certain nombre de questions que j’aimerais poser à AMD. J’espère que j’obtiendrai des réponses, et si je le fais, je reviendrai avec les détails.