Cette semaine à l’ISSCC (International Solid State Circuits Conference), Microsoft a présenté une conférence intitulée «Xbox Series X SoC: A Next Generation Gaming Console», avec l’ingénieur matériel Paul Paternoster. La présentation de 30 minutes a beaucoup couvert le dernier processeur de console de Microsoft, la plupart étant une répétition de ce que nous avons vu à Hot Chips en août de l’année dernière, mais il y avait un nouvel élément dans cette présentation parlant de la façon dont l’équipe de conception de la console a équilibré l’acoustique, la puissance, les performances thermiques et le rendement du processeur, en discutant d’où proviennent les points chauds dans la conception et où les objectifs de performance / puissance du silicium final ont été optimisés.

Récapitulatif des SoC Xbox Series X: Projet Scarlett

Pour commencer, voici un petit rappel sur le processeur de la Xbox Series X, connu sous le nom de «Project Scarlett». Scarlett est un système sur puce monolithique construit sur le nœud de processus N7 de TSMC. La conception a 15,3 milliards de transistors, mesurant 360,4 mm2, avec des dimensions de 15,831 x 22,765 mm2.

À l’intérieur de la puce se trouvent huit cœurs mobiles Zen 2, configurés en deux groupes de quatre cœurs, chacun partageant 4 Mo de cache L3 similaire aux processeurs mobiles Renoir / Lucienne d’AMD. Ces cœurs sont connectés via le Scalable Data Fabric à un GPU personnalisé basé sur RDNA capable de 12 TFLOPS de performances de pointe, permettant un ombrage à débit variable, le traçage de rayons et d’autres nouvelles fonctionnalités graphiques. Ce GPU est construit comme une conception de 56 unités de calcul, mais seulement 52 sont utilisés dans le produit final (nous en parlerons plus tard). Il y a plus de détails sur les fonctionnalités du GPU dans notre couverture de la présentation Hot Chips.

Le système de mémoire comprend 16 Go de GDDR6 sur 20 canaux x16. 10 Go de cette mémoire sont des performances plus élevées, permettant 560 Go / s de bande passante mémoire pour les jeux, tandis que les 6 autres Go sont moins performants, à 336 Go / s de bande passante mémoire, pour les jeux ou les circonstances où la mémoire n’est pas le facteur limitant . Cela permet également un état de puissance inférieur.

La prise en charge du codec vidéo permet quatre plans d’affichage avec encodage et décodage AVC 4K / 8K, décodage HEVC / VP9 HDR et encodage AVC / HDR. Trois coprocesseurs audio permettent le déchargement de calcul pour MOVAD (Opus / Vorbis), CFPU2 (traitement du domaine fréquentiel) et Logan IP pour MEC (annulation d’écho multicanal) pour éliminer le bruit de fond des microphones.

Le processeur de sécurité matérielle (HSP) active la racine de confiance ainsi que toutes les fonctions cryptographiques, telles que les clés cryptographiques matérielles sécurisées. Le HSP fait également partie de l’architecture Pluton de Microsoft, que nous verrons arriver aux processeurs modernes utilisant Windows au cours des deux prochaines années. Le processeur de diffusion multimédia (MSP) permet un cryptage / décryptage et un hachage rapides des périphériques multimédias externes via AES, suffisamment pour le stockage compatible PCIe 4.0 sur la plate-forme. Microsoft déclare que par rapport aux lecteurs 7200 RPM de la génération précédente, sa nouvelle architecture Xbox Velocity (utilisant NAND sur NVMe plus le MSP) permet des temps de chargement plus rapides couplés à une économie d’espace de 30 à 35% pour les jeux qui ne sont pas déjà distribués dans des formats compressés.

Vous pouvez en savoir plus sur la Xbox Series X ainsi que sur les tests de performances et de données dans notre revue:

Pour un article consacré aux raisons pour lesquelles le stockage NVMe est important pour ces appareils, en particulier en ce qui concerne les jeux, et une description de certains détails techniques, nous avons cet article pour vous:

Par rapport à la génération précédente, Microsoft fait la promotion de son nouveau processeur comme ayant

  • 3x les performances du processeur,
  • 2x les performances du GPU,
  • 1,7x la bande passante mémoire,
  • 2x la bande passante IO,
  • 0,9x le volume physique,
  • 2,4x performances par watt,
  • Même performance acoustique,
  • Conformité plus stricte pour la lecture multimédia,

Tout cela, selon Microsoft, a été réalisé avec une augmentation de puissance de + 15% par rapport à la puce de 2013.

Nous pensons que la limite supérieure de la Xbox Series X est d’environ 270 W, comme indiqué par Eurogamer sur la base d’un échantillon de pré-production ayant une alimentation de 315 W (et que les alimentations auront une certaine marge). Ce nombre de puissance doit couvrir tout à l’intérieur du système, donc le Scarlett SoC est susceptible d’en représenter une grande partie, mais pas la totalité. Microsoft n’a jamais donné de numéro officiel, déclarant qu’il ne le fournirait pas sans décrire également l’environnement technique dans lequel se trouve la puce (à partir des questions-réponses sur les puces chaudes). Il est important de noter que 20 canaux de GDDR6 consommeront également une partie de cette puissance, donc même si le système est de 270 W, si nous enlevons la majeure partie du système, la puce Scarlett plus la mémoire pourrait en représenter 225 W. 16 Gbps GDDR6 est souvent cité à 2,5 W par puce, et cela a 10, ce qui suggère que la mémoire pourrait être de 25 W, laissant le SoC avec 200 W à répartir entre le CPU, le GPU et l’interconnexion.

Ce sont des chiffres estimatifs, mais si Microsoft souhaite intervenir, je mettrai volontiers à jour cet article.

Cela dit, dans notre examen de la Xbox Series X, nous n’avons jamais vu de chiffres de puissance aussi élevés. Avec un compteur au mur, la consommation d’énergie sur le tableau de bord était de 45 W, et le jeu le plus exigeant (Gears of War 5) n’a atteint que 202 W pour le système complet.

Équilibrage acoustique, puissance et thermique

Comme pour tout système autonome comme une console, trouver le bon équilibre entre la consommation d’énergie, les thermiques et l’acoustique est une équation multidimensionnelle, en particulier lorsque le système mis à jour recherche plus de puissance et que l’objectif est un système plus mince. Paul Paternoster, le présentateur de cette conférence, a expliqué que l’objectif de la Xbox Series X était de fournir quelque chose avec un TDP 15% plus élevé que la génération précédente, mais un volume 20% plus petit avec les mêmes performances acoustiques.

Le résultat final était plus proche d’un volume 10% plus petit, mais Microsoft a activé une conception de flux d’air parallèle à trois canaux combinée à un refroidisseur de chambre à vapeur pour le SoC principal et la mémoire, un déflecteur de flux d’air du châssis central qui refroidit les régulateurs de tension et autres IO et un ventilateur axial personnalisé de 130 mm avec un moteur électrique à courant continu sans balais triphasé pour des fonctionnalités hautes performances mais à faible acoustique et à faible entretien.

Cela vaut la peine de zoomer sur cette simulation thermique dans le coin.

Sur la droite se trouve le dissipateur thermique principal en aluminium pour le SoC, puis au milieu se trouve le déflecteur de flux d’air du châssis central, et à gauche se trouve le reste du système, y compris le deuxième PCB avec l’E / S. Microsoft a divisé le système en deux PCB, un pour le Scarlett SoC et le second pour toutes les connexions liées aux E / S, afin de distribuer les thermiques et de permettre un encombrement réduit. Le seul problème avec une conception comme celle-ci est que la connectivité entre les cartes entraîne souvent une petite pénalité de puissance, avec un connecteur croisé avec une bande passante suffisante.

Efficacité de conduite grâce à la gestion de l’alimentation

L’un des objectifs de la conception de nouveaux SoC est d’essayer d’économiser de l’énergie dans autant de domaines différents que possible. Même de petites économies de 1% ici et là s’additionnent lorsque vous en collectez quelques-unes, et Microsoft travaillant avec AMD a implémenté un certain nombre de nouvelles fonctionnalités. Nous avons déjà vu certaines de ces fonctionnalités sur les processeurs AMD, et peu pour lesquelles Scarlett a été le premier SoC basé sur Zen 2 à utiliser cette fonctionnalité à l’époque. Paul Paternoster a réparti les économies d’énergie en trois domaines clés: la surveillance et la régulation de la puissance (~ 10%), l’optimisation des processus (~ 10-15%) et la gestion de l’état de l’alimentation (opérationnel).

Surveillance et régulation de l’alimentation

Sous cette rubrique, Microsoft a répertorié un certain nombre de fonctionnalités que nous avons vues auparavant chez AMD, telles que les régulateurs numériques à faible décrochage, la mise à l’échelle dynamique de la fréquence de tension et l’étalonnage du temps de démarrage en courant continu.

Pour le moniteur d’alimentation, nous l’avons vu implémenté sur les cœurs Zen d’AMD depuis la première génération, fournissant des informations supplémentaires relatives aux chemins critiques à l’intérieur du cœur de sorte que les bandes de garde de tension puissent être optimisées pour une charge de travail donnée. Cela peut être utilisé avec les régulateurs DLDO, qui fournissent un contrôle de tension sur une base par cœur, plutôt que sur une base par complexe. Pour le contexte, Scarlett utilise une conception basée sur Zen 2 similaire à la plate-forme mobile d’AMD, similaire à Renoir, mais AMD n’a pas implémenté DLDO avant Lucienne, le produit mobile Zen 2 de deuxième génération. Les DLDO sont présents sur le matériel AMD de bureau depuis au moins deux générations.

La mise à l’échelle dynamique de fréquence de tension (DVFS) à grain fin est également un autre élément que nous avons vu sur les processeurs AMD Ryzen, à la fois dans les ordinateurs de bureau et mobiles, permettant un contrôle plus fin de la fréquence du processeur, mais aussi en déplaçant les états d’alimentation plus bas en tension plus près du silicium réel minimums. Cela optimise les performances par watt en abaissant cette tension, et combiné avec le DLDO, cela peut également être fait sur une base par cœur. Le DVFS fonctionne mieux avec le contrôle de l’état d’alimentation CPPC2 d’AMD, mais comme nous y reviendrons plus tard, les consoles reposent sur des états d’alimentation fixes.

Le Chip Low Dropout Regulator (CLDO) est quelque chose qu’AMD n’a pas mentionné dans le cadre de ses processeurs Zen, mais Microsoft le met en évidence ici comme un moyen de réduire l’alimentation des caches L2 / L3. Cela devient évidemment plus important à mesure que les caches deviennent plus grands – les processeurs de bureau d’AMD ont 4x plus de cache par rapport aux processeurs mobiles et par rapport à Scarlett. Cependant, cela semble faire une différence suffisante ici que Microsoft l’a inclus dans la discussion, bien que quand ils disent «  tension par puce  », je me demande si cela signifie par complexe quad-core ou par cœur, plutôt que par une valeur de puce complète .

Le dernier de cette section est DC-BTC, ou étalonnage au démarrage de la tolérance de courant et de tension. Cela a été développé à l’époque des Bulldozers d’AMD pour permettre des marges plus serrées lorsque les puces et les composants vieillissent. À mesure que les composants vieillissent, en raison de l’électromigration et des effets thermiques, une tension plus élevée est généralement requise pour le même effet. Cependant, sans mécanisme de contrôle de l’âge, un SoC doit élever artificiellement sa tension depuis le début, appelée «marge de vieillissement», associée à une tolérance de régulation de haute tension. L’inconvénient est que l’électromigration se produit pire à des tensions plus élevées.Par conséquent, en effectuant une forme d’étalonnage du vieillissement, la puce peut avoir des marges réduites, être à une puissance plus faible et finalement vivre plus longtemps en raison de la tension plus basse. Cela a également un effet d’entraînement pour permettre d’accepter une gamme plus large de tensions pour le rendement final, étant donné une détection de vieillissement suffisante et abaissant les marges de vieillissement nécessaires.

Optimisation du processus

Parallèlement aux implémentations du côté de la conception, des optimisations sont effectuées au niveau du processus de fabrication. Comme la plupart de nos lecteurs le savent, la fabrication d’un processeur a 1000 leviers différents à tirer, qui peuvent tous changer le fonctionnement des autres leviers. Trouver la bonne combinaison pour activer la puce avec les meilleures performances, ou la meilleure fréquence, ou la meilleure puissance, ou la meilleure efficacité, tout implique de trouver des minima globaux ou localisés dans l’espace de recherche.

Avec le SoC Project Scarlett, Microsoft a expliqué avoir mis en œuvre deux méthodes au niveau de la fabrication, à la fois avec AMD et le partenaire de fabrication TSMC, pour obtenir un meilleur produit. Le recentrage du processus commence par la définition des tensions requises et des minimums de courant par rapport à la fréquence et aux fuites des transistors.

La deuxième partie consiste à trouver un minimum de tension localisé dans cet espace de recherche défini, connu sous le nom de recherche Vmin.

La combinaison de ces deux éléments représente 10 à 15% des économies d’énergie réalisées par le nouveau Scarlett SoC, et ce sont toutes des optimisations basées sur la fabrication. La profondeur à laquelle ces optimisations pourraient être en mesure de trouver les meilleurs résultats est souvent limitée par le temps de mise sur le marché (combien de points de recherche pouvez-vous analyser avant d’avoir à décider d’un ensemble spécifique de valeurs) et combien d’argent est prêt à être investi.

États de puissance

Pour un système donné, l’activation d’un état d’alimentation fournit une fenêtre de performances pour le système en ce qui concerne la puissance, les thermiques, l’acoustique et exactement les performances nécessaires pour la tâche à accomplir. Dire à un système de fonctionner dans son état de puissance de pointe, par exemple, terminera toute charge de travail aussi rapidement que possible, au détriment de la puissance, des thermiques et de l’acoustique.

Un ordinateur de bureau moderne variera souvent les états d’alimentation à la volée, et la technologie CPPC2 d’AMD permet à ces états d’alimentation d’être un flux continu lorsque les performances sont demandées. Les consoles, en revanche, ne peuvent pas l’utiliser en raison de la nature du fonctionnement du système avec les développeurs de jeux.

Microsoft définit un certain nombre d’états d’alimentation dans le système afin d’offrir les bonnes performances pour les jeux, pour la lecture vidéo, pour le téléchargement de mises à jour de jeux et pour d’autres fonctionnalités. Chaque partie du système peut avoir son propre ensemble d’états d’alimentation:

  • Le CPU a 8 états d’alimentation
  • Le GPU a 5 états d’alimentation
  • La structure interne a 4 états d’alimentation
  • Le GDDR a 3 états d’alimentation

Microsoft utilise ces bandes pour créer des modes de fonctionnement de console spécifiques, permettant aux développeurs de travailler et d’optimiser pour une puissance et des performances données, plutôt que pour la cible mobile des PC modernes. Sur ces jeux de console, obtenir 30 FPS minimum à une résolution de 1920 x 1080 est essentiellement la barre minimale, et si un développeur sait que le système aura un niveau de performance garanti, il peut s’accorder sur ces chiffres de performance.

Voici les modes de fonctionnement dont Microsoft nous parle – il y en a peut-être plus. Dans le jeu, chaque mode d’alimentation est réglé au maximum, de sorte que le système obtient un accès complet à toutes les performances nécessaires. En lecture vidéo, la console sera dans un certain nombre de modes de fonctionnement différents en fonction du format du contenu, puis il y a quelques modes de puissance inférieure pour l’arrière-plan et la veille connectée. Il peut y avoir d’autres modes d’alimentation en dehors de ceux-ci, comme pour les jeux 2D ou indépendants, ou si le système détecte que certains niveaux de performances ne sont pas nécessaires.

Résolution de la densité thermique et du rendement

Densité thermique

L’un des éléments de la conférence ISSCC de Paul Paternoster concernait la différence entre cette génération pour les mesures de densité thermique et les générations de consoles précédentes. Par le passé, comme l’expliquait Paul étant donné qu’il a travaillé sur plusieurs générations de processeurs Xbox, le GPU est souvent le facteur limitant de la densité thermique, ce qui limite les caractéristiques acoustiques de la plateforme. Le GPU a souvent des exigences de haute performance et a toujours été là où se trouvent les points chauds. Paul a noté que pour le SoC Xbox Series X, les choses sont différentes.

Pour Scarlett, c’est en fait le CPU qui devient le facteur limitant. L’utilisation des cœurs x86 Zen 2 hautes performances d’AMD, plutôt que des cœurs Jaguar basse consommation de la génération précédente, combinée à la façon dont les charges de travail de jeu ont évolué au cours des 7 années qui ont suivi, signifie que lorsqu’une charge de travail de jeu commence à augmenter, le double 256- Les unités à virgule flottante sur le CPU sont l’endroit où se produit le point de densité thermique le plus élevé.

Dans cette diapositive, bien qu’elle n’indique pas quel type de charge de travail est en jeu ici, qu’il s’agisse d’un jeu actif ou d’un virus puissant, Microsoft affiche 87,4 ° C au point d’accès du côté du processeur, tandis que le GPU n’a qu’un Point chaud à 80,9 ° C. Maintenant, cela se résume également au choix de la fréquence et au point de conception du matériel, et à la recherche du bon équilibre entre la puissance du processeur, la puissance du GPU et les caractéristiques thermiques et acoustiques globales.

Microsoft a déclaré qu’en raison de cette différence et que maintenant le processeur était le point chaud thermique, l’acoustique était désormais centrée autour de ce point. À la suite des tests de Microsoft, la société déclare que le processeur est responsable de manière disproportionnée de l’acoustique de la conception: chaque Watt supplémentaire utilisé par le processeur vaut cinq fois plus pour le budget acoustique que le GPU.

C’est un point intéressant que je n’avais pas pris en compte, mais cela signifie que pour atteindre les objectifs souhaités, Microsoft a passé du temps à optimiser la bonne fréquence du processeur, faisant le compromis entre performances et thermiques. C’est aussi pourquoi le système fonctionne à 3,6 GHz lorsque le multithreading simultané est activé, mais peut aller plus haut jusqu’à 3,8 GHz lorsque le multithreading simultané est désactivé.

Résolution pour le rendement: l’effet du GPU

Les processeurs de console sont différents des processeurs de bureau et mobiles en ce sens qu’il n’y a pas de binning SoC. Pour tout produit de silicium donné qui est fabriqué, il y aura à la fois une variabilité des performances du transistor ainsi que des défauts définis dans la conception. L’objectif du processus de fabrication est de fournir le meilleur des deux, naturellement! Pour une conception donnée, les processeurs grand public des PC et des ordinateurs portables seront placés dans différents «bacs» et attribués différents noms et valeurs en fonction des performances des transistors. Les processeurs de console, en revanche, doivent tous fonctionner de la même manière pour répondre à une exigence de performance minimale, et il n’y a pas de regroupement. Un fabricant de console doit utiliser une conception et un point de performance tels que le plus grand nombre possible de processeurs de la ligne de production atteignent ce point. Cela fait partie de l’équation de rendement de tout processeur de console.

Nous avons abordé ci-dessus un certain nombre de choix de conception que Microsoft a faits dans cet article, dont certains sont pris en compte dans cette équation de regroupement et garantissent que la conception offre le rendement le plus élevé possible. Un autre facteur que nous n’avons pas encore spécifiquement abordé est le GPU. Le Scarlett SoC dispose physiquement de 56 unités de calcul pour les graphiques, mais n’en utilise que 52 dans le produit de vente au détail. La présentation à l’ISSCC a passé un certain temps à examiner les avantages des deux options, mais en fin de compte, pourquoi Microsoft a opté pour 52.

Microsoft parle ici des processeurs de groupe de travail (WGP), qui contiennent deux unités de calcul et des ressources partagées. Cela signifie que la conception complète de la puce a 28 WGP.

Paul Paternoster a expliqué qu’à partir des puces sortant de la chaîne de production, un nombre substantiel pouvait fonctionner avec les 28 WGP activés. Le but des graphiques était de fournir 12 TFLOP de performances, et donc par quelques calculs simples, Microsoft pouvait faire l’une des choses suivantes pour atteindre ce nombre:

  • 28 WGP activés à 1675 MHz
  • 26 WGP activés à 1825 MHz

Ces deux configurations activent 12 TFLOP. Étant donné que la fréquence de la conception 28 WGP est plus basse, cela permet également une tension plus basse, combinée pour une économie d’énergie globale de 20% si les 28 WGP sont utilisés.

Bien sûr, une économie d’énergie de 20% est assez substantielle, car elle permettrait soit de meilleures performances par watt, soit des performances plus élevées. Mais le problème est que pas assez de processeurs sortaient de la chaîne de production avec les 28 WGP fonctionnant à cette fréquence. La variabilité des processeurs, due à la fois aux performances et aux défauts des transistors, signifiait que 28 versions WGP n’avaient pas de sens sur le plan financier.

Microsoft utilise le meilleur nœud de processus 7 nm (N7) uniquement DUV de TSMC, qui a été déclaré comme ayant un taux de défaut de 0,09 défaut par centimètre carré.

  • Une tranche de 300 mm a 706,86 cm2 de superficie
  • Un taux de défauts de 0,09 défauts par cm2 signifie ~ 64 défauts par tranche
  • Scarlett mesure 306,4 mm2 (15,831 mm x 22,765 mm)
  • Notez que les SoC sont des rectangles et les wafers sont circulaires,
  • Les calculateurs de matrices de plaquette montrent qu’un rendement de 100% de cette taille de SoC donnerait 147 matrices par plaquette
  • Microsoft définit la fréquence / puissance de telle sorte que si toutes les matrices sont bonnes, toutes peuvent être utilisées
  • Avec un 0.09 / cm2 taux de défaut, il y a 107 bonnes matrices par tranche
  • Cela signifie un rendement de 73%, 107/147

En supposant qu’un défaut se produit dans l’une des unités de calcul GPU ou WGP, ce qui est une très bonne chance car le GPU est la plus grande partie du processeur, en absorbant ce défaut et en désactivant ce WGP, ce SoC peut être utilisé dans une console et le le rendement effectif est plus élevé.

Lorsque le taux de défaut est de 0,09, ce qui est agréable et faible, les chances que deux défauts se produisent sur la même puce sont très faibles. Même dans ce cas, en choisissant d’exécuter une conception avec seulement 26 WGP activés, deux de moins que les 28 WGP complets, presque tout ce qui sort de la chaîne de fabrication peut être utilisé – une augmentation de rendement efficace, réduisant d’un tiers le coût moyen par processeur.

Microsoft a déjà expliqué que le coût des processeurs pour cette génération de consoles est beaucoup plus élevé que celui de la Xbox One X en 2017 et beaucoup plus élevé que celui de la Xbox One de 2013. Cela revient à avoir à peu près la même zone de découpe, mais sur un nœud de processus plus avancé, des étapes et des structures plus complexes, de gros blocs IP (dont certains peuvent être sous licence), un prix de tranche plus élevé et un rendement inférieur.

Ainsi, l’opportunité de réduire le coût du processeur jusqu’à un tiers, au détriment d’un compromis de puissance de 20% dans le GPU pour les mêmes performances, n’est pas un pari à prendre à la légère, et sans doute un certain nombre d’ingénieurs et les compteurs de haricots peseraient le pour et le contre. Différents services de conception peuvent avoir choisi d’aller dans l’autre sens.

Cependant, un effet d’entraînement avec le choix de conception de 26 WGP est que cela signifie que plus de SoC sont fabriqués dans une unité de temps donnée, ce qui permet à plus d’unités de venir sur le marché en temps opportun, ce qui est particulièrement important si votre produit s’envole. des étagères et d’autres doivent être faites (comme la situation actuelle). Il est relativement difficile de rechercher des chiffres sur les chiffres de vente exacts de la Xbox Series X – la plupart des chiffres cités combinent la série X avec la plus petite Xbox Series S.D’un certain nombre de sources différentes, ce nombre pour les ventes combinées est d’environ 3,5 millions, et basé sur les conseils de GamesIndustry.biz, les appareils de la série X représentent environ les deux tiers de toutes les unités. Cela ferait des ventes de la série X environ 2,33 millions de processeurs, ce qui suggère un minimum de 16000 wafers au total à 100% de rendement, ou jusqu’à 21800 wafers à 73% de rendement. Le nombre réel se situe probablement quelque part entre les deux, mais vous pouvez voir quel effet le choix de configuration peut avoir sur la mise sur le marché du produit à temps, ainsi que le coût par processeur.

Matériel source: 68e ISSCC, 13-22 février 2021