Pour les présentations de la Journée de l’architecture 2021 d’Intel, le yin du yang traditionnel de la société de processeurs est les GPU. Intel a passé ces dernières années à se préparer à entrer sur le marché des GPU discrets, dans le but de rivaliser dans tous les domaines, des cartes vidéo grand public aux accélérateurs de classe HPC. Et maintenant, alors que l’entreprise commence déjà à se préparer pour 2022, ces efforts atteignent enfin leur paroxysme. Le grand effort d’Intel dans l’espace GPU discret commence sérieusement l’année prochaine avec Xe-HPG et Xe-HPC, donc pour leur journée d’architecture 2021, Intel s’ouvre un peu plus sur les architectures GPU qui conduiront leur première vague de haute -des produits performants l’année prochaine.

Entre Xe-HP, Xe-HPC et Xe-HPG, Intel dispose d’une palette très complète de conceptions et d’architectures de GPU. Et tandis que parmi ceux-ci, ce sont les GPU de classe centre de données d’Intel qui vont probablement faire ou défaire les efforts globaux d’Intel en matière de GPU, pour notre couverture d’aujourd’hui, nous allons commencer par quelque chose d’un peu plus proche de chez nous et un peu plus proche de nos cœurs : Xe- HPG. L’architecture GPU discrète d’Intel pour les cartes graphiques hautes performances a été annoncée pour la première fois il y a un peu plus d’un an, et pour la plupart des lecteurs AnandTech, c’est la seule variante de GPU Xe pour laquelle ils seront réellement sur le marché. De plus, avouons-le : bien que le calcul de pi soit cool, exécuter Doom Eternal à 144 images par seconde est plus cool.

Alors sans plus tarder, penchons-nous directement sur les divulgations Xe-HPG d’Intel lors de la journée de l’architecture de cette année.

L’histoire jusqu’à présent : Xe-HPG mène à l’alchimiste

L’architecture Xe-HPG d’Intel a été dévoilée pour la première fois lors de la journée de l’architecture de l’année dernière. La version finale de Xe qui sera annoncée, Xe-HPG est conçue pour tirer parti des technologies et des apprentissages des autres projets Xe d’Intel pour produire une famille de GPU de jeu et graphiques discrets et hautes performances qui peuvent aller de pair avec AMD et NVIDIA. Et tandis qu’Intel rivalisera avec les deux sociétés de GPU existantes sur plusieurs fronts, c’est dans l’espace graphique discret grand public qu’ils seront confrontés à leur plus grand défi, car l’utilisation d’API standard de l’industrie comme DirectX et Vulkan signifie que les cartes vidéo grand public sont un marché de produits. – il y a relativement peu de fidélité ou de verrouillage du fournisseur pour attirer ou retenir les clients si un produit n’est pas bon.

Pendant la majeure partie des 12 derniers mois, Intel est resté relativement muet sur Xe-HPG après son annonce initiale. Mais au cours de la semaine dernière – et en préparation pour aujourd’hui – Intel a finalement ouvert le robinet d’information. Lundi, nous avons découvert le nom de la première architecture Xe-HPG d’Intel : Alchemist. La famille Alchemist sera utilisée pour piloter la génération de produits 2022 et sera composée d’au moins deux configurations GPU distinctes. Alchemist, à son tour, sera une architecture GPU entièrement moderne, prenant en charge non seulement le lancer de rayons comme indiqué précédemment, mais également le reste de l’ensemble de fonctionnalités DirectX 12 Ultimate – ce qui signifie des shaders de maillage, un ombrage à taux variable (niveau 2) et un retour d’échantillon. .

Intel a également révélé qu’ils travaillaient déjà d’arrache-pied sur les générations successives, avec les architectures Battlemage, Celestial et Druid en cours de développement pour les futures générations de produits. En révélant maintenant les noms d’architecture successifs, Intel cherche à démontrer qu’ils exécutent un plan à long terme pour Xe-HPG qui s’étend sur plusieurs années, et que les joueurs qui se joignent au nouveau venu Intel ne seront pas rapidement abandonné.

Enfin, Intel a révélé le nom de la marque de ses produits graphiques grand public : Arc. Arc sera la nouvelle marque d’Intel pour ses cartes vidéo grand public, ainsi que pour les logiciels et services associés. Les premiers produits Arc seront lancés au premier trimestre de 2022, Intel proposant des produits Arc pour les graphiques discrets mobiles ainsi que le marché des ordinateurs de bureau discrets traditionnels. Comme pour toutes les fenêtres de lancement trimestrielles d’Intel, nous partons du principe qu’Intel envisage la dernière partie du trimestre, auquel cas nous envisageons probablement une fenêtre de lancement en mars.

Intel Architecture Day 2021 : un aperçu d’Alchemist

Dans le cadre de sa montée en puissance vers le lancement de ses premiers produits graphiques discrets hautes performances, Intel nous donne un premier aperçu de l’architecture Alchemist Xe-HPG.

L’entreprise est impatiente de montrer ce sur quoi elle travaille en secret ces dernières années. Dans le même temps, Intel est à au moins 5 mois du lancement de ces produits, et ils en sont bien conscients. Par conséquent, les divulgations d’aujourd’hui de la société sont relativement limitées, en particulier par rapport à ce qui est divulgué sur les processeurs Alder Lake, ou même Xe-LP lors de la journée de l’architecture de l’année dernière. Il y a des choses comme la vitesse d’horloge et les performances où Intel est tout simplement trop éloigné pour offrir des détails concrets ; et dans d’autres domaines, Intel retient l’information afin d’avoir quelque chose à dire d’ici le lancement des premiers produits Arc.

En conséquence, la divulgation d’aujourd’hui axée sur l’architecture sur Xe-HPG peut être considérée comme un aperçu de niveau intermédiaire de l’architecture. Intel ne nous donne pas un aperçu du niveau le plus bas de détails tels que les latences de pipeline et les tailles de cache, mais ils nous donnent un aperçu de l’organisation logique de l’architecture et de la manière dont les différents éléments s’emboîtent. Le résultat net est notre regard le plus détaillé à ce jour sur Alchemist/Xe-HPG, mais avec de nombreux trous qu’Intel laisse derrière lui à combler à une date ultérieure.

Tout commence avec Xe Core (Alchemist Edition)

Même si Intel traite Xe comme une famille d’architectures GPU, en pratique, ces architectures peuvent être très différentes les unes des autres. Cela est vrai même pour Alchemist, où, de son propre aveu, Intel a dû retravailler certains des fondamentaux architecturaux de son GPU par rapport au Xe-LP, qui a été introduit il y a seulement un an. Il reste à voir dans quelle mesure ils diffèrent, mais il est clair d’emblée qu’Intel ne traite pas Alchemist comme une conception Xe-LP plus grande, et que des changements importants ont été nécessaires pour concevoir un GPU avec l’évolutivité nécessaire.

Et cette différenciation se résume aux éléments constitutifs fondamentaux de leurs GPU et à la manière dont ils sont logiquement organisés. Après de nombreuses années d’utilisation de l’unité d’exécution (UE) comme unité de calcul / shader fondamentale, Intel jette cela de côté, citant à quel point les UE ont changé au fil des générations et, par conséquent, à quel point il est difficile de les comparer.

Au lieu de cela, en commençant par Alchemist (et Ponte Vecchio), Intel introduit un nouveau bloc de construction fondamental : le Xe Core.

Le Xe Core est, à un niveau élevé, une collection d’ALU vectorielles et matricielles (tenseurs), associées à des unités de chargement/stockage des caches L0/L1, et sans aucun doute également des ALU mathématiques étendues. Au niveau logique, cela est relativement proche en termes de fonctionnalité d’une sous-tranche Xe-LP ou d’un NVIDIA SM (moins les unités de texture), bien que toute similitude d’organisation interne reste à voir.

Chaque Xe Core contient 16 unités vectorielles, chacune pouvant à son tour traiter 256 bits par cycle. En décomposant cela au niveau le plus fondamental, cela équivaut à 8 ALU FP32 par moteur vectoriel, ce qui rend chaque moteur vectoriel à peu près analogue à un Xe-LP EU. Et avec 16 moteurs vectoriels de ce type par cœur Xe, cela signifie qu’un seul cœur Xe devrait être capable de traiter 128 opérations FP32 par horloge (pour 256 FLOPS de débit FMA). Pour s’appuyer une fois de plus sur notre analogie avec NVIDIA SM, il s’agit du même débit par horloge qu’un Ampere SM.

Taux de débit de calcul du GPU Intel
(FMA, Ops-per-clock-per-core/subslice)
Xe-HPG Xe-LP
FP32 256 256
INT8 DP4A : 1024 ?
Matrice : 4096
DP4A : 1024

Ces 16 unités vectorielles sont également associées à 16 unités mathématiques matricielles pour les opérations matricielles/tensorielles. Exposés via les Xe Matrix eXtensions (XMX) et parfois étiquetés comme tels, ceux-ci sont nouveaux dans l’architecture GPU d’Intel et font d’Intel le deuxième fabricant de GPU à commencer à inclure une matrice systolique pour les opérations matricielles denses. Ces unités matricielles peuvent traiter 1024 bits par horloge, ce qui correspond à 64 opérations FP16 par cycle, ou 128 opérations INT8. Multiplié par les 16 unités matricielles de chaque Xe Core, cela ajoute jusqu’à 1024 opérations matricielles FP16 à chaque cycle (2048 FLOPS de FP16 FMA).

Plus intéressant encore, en comparaison, Intel semble consacrer un pourcentage encore plus important de son matériel aux mathématiques matricielles que NVIDIA. Alors qu’Intel et NVIDIA sont appariés en termes de débit vectoriel à 128 opérations FP32 par cœur SM/Xe, Intel offre deux fois le débit mathématique matriciel – et a donc dédié deux fois plus d’ALU à la tâche. Tout cela signifie qu’Intel parie apparemment gros sur les mathématiques matricielles et le traitement des réseaux neuronaux/IA étant un besoin moteur à l’avenir. Gardez à l’esprit que ces unités mathématiques matricielles ne sont pas utilisables pour la plupart des opérations de shader graphique de base (au moins en 2021), Intel fait donc un compromis sérieux en consacrant autant de matériel aux opérations matricielles.

Reste à savoir comment Intel entend les remplir. Mais une partie de cette équation sera certainement la technologie Xe Super Sampling (XeSS) d’Intel. La technologie de mise à l’échelle de l’image de la société reposera en partie sur des modèles de réseau neuronal, qui à leur tour pourront fonctionner sur les moteurs matriciels.

L’ensemble est complété par la collection d’unités de chargement/stockage d’Intel, ainsi que les caches L0/L1. Intel nous dit qu’ils ont renforcé leurs unités de chargement/stockage pour gérer les gros besoins en données des moteurs matriciels, mais ils n’entrent pas dans les détails pour le moment. De plus, nous ne recevons aucune divulgation sur les tailles de cache aujourd’hui.

Construire : 4 cœurs font une tranche de rendu

Après le Xe Core de base, le niveau suivant de l’organisation logique de Xe-HPG est la tranche de rendu, une unité organisationnelle qu’Intel conserve de ses architectures antérieures. Et comme ces architectures antérieures, une tranche est la majeure partie de ce dont vous avez besoin pour construire un GPU.

Pour Alchemist, une tranche contient 4 cœurs Xe, ainsi que 4 unités de lancer de rayons, 4 échantillonneurs de texture, les frontaux de géométrie/rasterisation et 2 backends de pixels (chacun capable de pousser 8 pixels/horloge). Par rapport à l’architecture Xe-LP, il s’agit d’une configuration plus légère, avec moins de backends de pixels et moins de sous-tranches/cœurs Xe que la tranche Xe-LP équivalente.

À certains égards, c’est un peu plus granulaire que Xe-LP, mais à un niveau plus fondamental, je soupçonne que les changements sont ancrés autour d’un meilleur équilibrage des différentes ressources GPU. Nous n’avons pas d’informations de débit sur le matériel de géo / rastérisation, mais s’il s’agit de Xe-LP, cela signifie qu’Intel a augmenté la quantité de matériel frontal par rapport au reste de sa conception. Pendant ce temps, bien qu’ils fassent partie de la tranche plutôt que du Xe Core, cette disposition 4:4:4 signifie que pour Alchemist, chaque Xe Core a essentiellement son propre échantillonneur de texture et unité de lancer de rayons.

En parlant de lancer de rayons, c’est un autre domaine où Intel nous donne un peu plus de détails sur le fonctionnement interne de l’architecture. Intel confirme maintenant que leurs unités RT sont capables d’accélérer les traversées de rayons, les intersections de boîtes englobantes et les intersections de triangles. Tout cela est très similaire à ce dont sont capables les propres cœurs RT de NVIDIA. Intel ne parle pas du débit de performances réel de ces unités pour le moment, il reste donc à voir comment elles fonctionneront.

Rendre l’alchimiste entier : jusqu’à 8 tranches

Le dernier, mais non le moindre, de notre visite de l’architecture GPU d’Alchemist est un aperçu de la façon dont un GPU complet est assemblé. Comme avec les architectures graphiques Intel précédentes, Intel sera en mesure d’augmenter (ou de réduire) ses conceptions en fonction du nombre de tranches. Dans le cas d’Alchemist, l’architecture peut être mise à l’échelle jusqu’à 8 tranches, soit deux tranches plus grandes que Xe-LP.

Connecter ces tranches – et compléter le GPU – est le backend traditionnel de la matrice de mémoire, qui contient également le cache L2. Pendant ce temps, un processeur de répartition mondial est installé en amont pour envoyer le travail aux tranches et au-delà. Intel ne divulgue rien de plus sur ces pièces aujourd’hui, nous n’avons donc aucune information sur les tailles de cache L2, la bande passante du cache, etc.

Toutes les unités fonctionnelles fixes telles que l’interface PCIe, le moteur multimédia, les contrôleurs d’affichage, le moteur de copie et les autres éléments précédemment connus sous le nom de non tranché ne sont pas présentes dans les diagrammes d’Intel, mais se cachent sans aucun doute à ce niveau. Sur la base de certains commits de pilotes Linux, il existe des preuves solides qu’Intel prendra en charge DisplayPort 2.0 avec Alchemist, ce qui en ferait le premier fournisseur de GPU à fournir ces capacités.

Intel ne divulgue rien non plus sur les produits de vente au détail ou les configurations GPU aujourd’hui. Alors que nous savons ce que l’alchimiste pouvez à l’échelle, nous ne savons pas quelles seront les configurations d’expédition réelles. Néanmoins, en supposant pour le moment qu’Intel vise à fournir une configuration complète à 8 tranches, cela signifie qu’une telle puce offrirait 32 cœurs Xe, ou 4096 ALU FP32. C’est près de 5 fois plus d’ALU vectorielles que le GPU DG1 Xe-LP, sans compter tout le matériel supplémentaire qu’Intel a ajouté pour les cœurs matriciels, la fonctionnalité DirectX 12 Ultimate et tous les autres ajouts de fonctionnalités fournis avec Alchemist.

Conçu par Intel, construit par TSMC : Alchemist commence à N6

Mis à part l’architecture, la plus grande question brûlante de toutes a peut-être été de savoir où Intel aurait même construit sa première génération de GPU Xe-HPG hautes performances. Bien que le seul GPU discret Xe-LP (DG1) d’Intel ait été construit sur leur processus de 10 nm pour coïncider avec les besoins du CPU et du GPU intégré d’Intel, Alchemist n’avait pas de telles limitations. En fait, il a dû être construit en dehors d’Intel, car le processus 10 nm d’Intel n’est pas assez compétitif par rapport au processus 7 nm de TSMC, que le concurrent AMD utilise déjà pour ses GPU. C’est pourquoi Intel a révélé dès l’annonce de Xe-HPG que le GPU serait construit dans une usine externe.

Dans le cadre des annonces de la journée de l’architecture d’aujourd’hui, Intel répond enfin à la question brûlante et divulgue la fabrique et le nœud utilisés. Comme beaucoup s’y attendaient, Intel se tourne en effet vers TSMC pour fabriquer son GPU de jeu, et ils utiliseront le processus N6 de TSMC pour le faire.

Lors de leur sortie l’année prochaine, les puces Alchemist seront les premiers GPU construits sur le processus N6. Bien que n’étant pas le processus principal de TSMC – cet honneur appartient à N5 – N6 est le prochain meilleur choix pour expédier un GPU – et probablement le seul économique. N6 est essentiellement une version améliorée du nœud N7 de TSMC, qui remplace certaines couches DUV par des couches EUV tout en conservant la plupart des mêmes règles et outils de conception. TSMC n’a pas trop fait la promotion du demi-nœud sur la base des performances – les performances sont à peu près égales à N7 – mais il prend des mesures importantes pour simplifier le processus de fabrication par rapport au N7. Et, particulièrement important pour un produit de matrice relativement volumineux comme un GPU, il offre une densité améliorée d’environ 18% par rapport au N7.

Compte tenu du calendrier de sortie d’Intel pour le premier trimestre de 22, les GPU Alchemist d’Intel seront presque certainement les GPU grand public les plus avancés du marché en ce qui concerne la technologie de fabrication. Alchemist affrontera les puces Navi 2x d’AMD construites sur N7 et les puces Ampere GA10x de NVIDIA construites sur Samsung 8LPP. Cela dit, comme AMD peut en témoigner, être compétitif sur le marché des GPU grand public ne se limite pas à avoir un meilleur nœud de processus.

Obtenir encore plus : améliorer les vitesses d’horloge et les performances par watt pour Alchemist

À cette fin, les ingénieurs d’Intel ont également travaillé sur Alchemist à un faible niveau pour améliorer encore leurs vitesses d’horloge et leurs performances par watt par rapport à Xe. Comme nous le répétons maintes et maintes fois, l’efficacité énergétique est primordiale pour les GPU, car les performances globales du GPU de nos jours sont fortement limitées par le TDP. Il est beaucoup plus facile de construire un GPU plus gros/plus rapide que d’en construire un qui soit toujours rapide sans faire fondre votre système dans le processus.

Cela signifie qu’Intel a étudié la conception d’Alchemist au niveau de la logique et du circuit pour réaliser davantage d’économies d’énergie et supprimer les goulots d’étranglement qui limiteraient les vitesses d’horloge. Malheureusement, Intel n’offre pas beaucoup plus de détails sur ce qu’ils ont fait ici, il est donc difficile de dire s’ils ont subi un processus intensif de haut en bas à la AMD pour RDNA, ou quelque chose d’un peu plus réduit.

En fin de compte, en conjonction avec l’utilisation du processus N6 de TSMC, Intel rapporte qu’ils ont amélioré à la fois leur efficacité énergétique (performances par watt) et leurs vitesses d’horloge à une tension donnée de 50 % par rapport au Xe-LP. Notez qu’il s’agit de la somme totale de toutes leurs améliorations – processus, logique, circuit et architecture – il n’est donc pas clair dans quelle mesure cela provient du passage à TSMC N6 d’Intel 10SF, et combien provient d’autres optimisations. Mais dans tous les cas, Intel aura besoin de tout ce qu’il peut obtenir.

Pendant ce temps, une augmentation de 50% de la vitesse d’horloge par rapport au Xe-LP mettrait les vitesses d’horloge d’Intel à environ 2 GHz. Ce serait quelque part entre NVIDIA et AMD, qui ont tendance à avoir respectivement des vitesses d’horloge légèrement inférieures et supérieures. Ou, pour mettre les choses en termes de débit brut, cela donnerait une conception théorique d’Alchemist à 8 tranches 16,4 TFLOPS de shader / débit de calcul simple précision (FP32), ce qui serait presque 8 fois le débit nominal de la carte vidéo Xe-LP DG1 discrète .

Alchemist & Intel Arc : à venir au premier trimestre 2022

Pour conclure, depuis quatre ans, nous entendons parler des plans ambitieux d’Intel pour réintégrer l’espace des GPU discrets hautes performances. Et même s’il faudra encore un peu de temps avant que leurs produits Arc commencent à être expédiés, nous avons maintenant atteint le compte à rebours final. C’est à ce moment qu’Intel accélère son marketing et ses divulgations techniques, alors qu’il se prépare pour le lancement de son matériel au premier trimestre 2022.

Les divulgations d’architecture d’Alchemist d’aujourd’hui sont à leur tour peut-être un peu taquines, mais elles sont aussi un indice de ce qui va arriver alors qu’Intel se lance à nouveau sur le marché des cartes vidéo discrètes. Il y a beaucoup de détails que nous n’avons pas encore en ce moment – de la mémoire aux configurations GPU et aux attentes en matière de performances – il serait donc prématuré de clore cet article sur tout ce qui concerne les performances. Cela dit, je pense qu’il est sûr de dire que ce qui fera ou détruira les choses pour Intel dans l’espace grand public sera le fait d’Intel. Ils ont accès à un nœud de fabrication de pointe, à d’innombrables ingénieurs et, comme nous venons de le voir, à une architecture qui, à un niveau élevé, semble offrir toutes les fonctionnalités et fonctionnalités nécessaires pour rivaliser et réussir sur le marché des graphiques discrets. Nous suivrons donc les prochains mois avec grand intérêt, pour voir si l’Arc d’Intel peut être à la hauteur de ces ambitions.