L’une des promesses qu’Intel a faites avec son nouveau Xe La famille GPU est que, sous ses différentes formes, elle répondra à des utilisations allant des graphiques intégrés jusqu’aux modèles de calcul haute performance nécessaires pour les superordinateurs super-denses. Cela signifie la prise en charge des types de calculs impliqués dans les graphiques simples, les graphiques complexes, le traçage de rayons, l’inférence IA, la formation à l’IA et le calcul qui entre dans la modélisation moléculaire, le pétrole et le gaz, les réacteurs nucléaires, les fusées, les fusées nucléaires, etc. les autres grandes questions où plus de calcul offre plus de capacités. Assis près du sommet des offres d’Intel se trouve le Xe-Architecture HP, conçue pour offrir des GPU hautes performances pour les déploiements de serveurs et d’entreprise standard.

Au cours des deux dernières semaines, Intel a offert certains des premiers détails techniques de Xe-HP, après que Raja Koduri l’a montré sur ses profils de médias sociaux. Nous savons qu’il est conçu pour être une architecture modulaire, avec différents puces connectés entre eux à l’aide de la technologie Intel Embedded Multi-Die Interconnect Bridge. Nous savons également, en raison des révélations faites lors de la journée de l’architecture d’Intel, qu’il sera construit sur le processus de fabrication Intel 10nm Enhanced SuperFin (10ESF, anciennement 10 ++, anciennement 10 +++), que nous pensons être fin 2021. processus. Raja Koduri a promis lors de la présentation de la Journée de l’architecture que Xe-HP (et Xe-HPG) sera disponible en 2021.

Intel a expliqué que la conception modulaire de Xe-HP évoluera de une à quatre tuiles, et que le concept de Xe-HP consistait à «tout mettre à l’échelle», comme les unités d’exécution, la fréquence, la bande passante, l’IPC et les capacités mathématiques. Nous supposons que chaque tuile aura également un accès direct à une certaine mémoire sur la puce – en augmentant vraiment chaque aspect d’une puce – bien que la façon dont le HBM2E de la puce est alloué n’ait pas été confirmée. L’intérêt du produit est qu’il est conçu pour le centre de données, il doit donc y avoir un mélange de calcul multimédia et de calcul brut, couvrant toutes sortes de cas d’utilisation.

Dans le cadre de la démonstration lors de la journée de l’architecture, Intel a également montré qu’ils avaient exécuté des tests de performances sur le silicium précoce dans les laboratoires. Par silicium précoce, nous entendons que ceux-ci ne fonctionnent pas aux fréquences finales, ce n’est pas le micrologiciel final et la pile logicielle a encore du chemin à parcourir, il y a donc sans aucun doute des optimisations à tous les niveaux.

Premièrement, Intel a montré qu’une seule tuile de Xe-HP peut non seulement transcoder une vidéo 4K60 en temps réel, mais dix. Dans la démonstration, ils avaient la sortie FFmpeg, montrant que la démo convertissait chaque vidéo de 5332 kb / s globalement à 3000 kb / s en moyenne (6000 kb / s max).

Pour le calcul, Intel a proposé les chiffres de performances suivants, donnés sous forme de GFLOP de pointe des mathématiques FP32 à l’aide du benchmark CLPeak basé sur OpenCL.

  • Une tuile: 10588 GFLOP (10,6 TF) de FP32
  • Deux tuiles: 21161 GFLOP (21,2 TF) de FP32 (1,999x)
  • Quatre tuiles: 42277 GFLOP (42,3 TF) de FP32 (3,993x)

Nous obtenons également des informations supplémentaires de la vidéo de Xe-HP. Les tests ont été effectués sous Linux, et en fait tous effectués sur une version de la puce à quatre carreaux, mais conçus pour fonctionner en modes 1T / 2T / 4T. C’est pourquoi, en regardant la vidéo, nous pouvons voir que les trois versions fonctionnent à 1300 MHz. La chaîne utilisée pour la puce est également «XeHP HD Graphics NEO».

La vidéo montre également qu’une seule tuile a 512 «unités de calcul», tandis que la tuile double a 1024 unités de calcul et la tuile quadruple a 2048 unités de calcul. Et bien qu’Intel n’ait pas officiellement clarifié ce que signifient les «unités de calcul» dans ce contexte, les chiffres de performance confirment presque qu’il compte les unités d’exécution d’Intel. Sur la base des GFLOP donnés, de la vitesse d’horloge indiquée et des 8 canaux de l’architecture Xe par unité d’exécution avec deux FMA, les performances d’Intel correspondent respectivement à 512/1024/2048 UE. Cela signifierait que chacun aurait:

  • Une tuile: 512 EU = 4096 ALU (+ 1024 ALU mathématiques étendues)
  • Deux tuiles: 1024 EU = 8196 ALU (+ 2048 ALU mathématiques étendues)
  • Quatre tuiles: 2048 EU = 16384 ALU (+ 4096 ALU mathématiques étendues)

Cela suppose que la structure d’unité d’exécution de 8 + 2 de Xe-LP demeure. Nous savons que HP prendra en charge les nouvelles instructions XMX pour les mathématiques matricielles, ainsi que les niveaux de quantification liés à l’IA et FP64. Quelle présentation Intel’s Hot Chips a confirmé sera mise en œuvre dans l’UE en tant que blocs physiques supplémentaires.

Il y avait aussi une photo de l’arrière d’un Xe-HP die, que Raja a également montré lors de son discours sur Hot Chips. Nous pouvons jouer à un jeu de comptage des quilles.


Intel Xe-HP 4 carreaux arrière

Intel pense atteindre une mise à l’échelle quasi linéaire des performances de calcul dans sa stratégie multi-tuiles – au moins jusqu’à 4T en utilisant CLPeak, une référence conçue pour mesurer le débit de calcul maximum d’un GPU. Il n’y a rien ici à dire sur la mise à l’échelle de la bande passante tuile à tuile, ou si cette stratégie multi-tuile et la disposition NUMA des tuiles ont des effets d’entraînement pour les mathématiques limitées ou rares – l’objectif d’Intel était simplement de montrer que le matériel fonctionne. et quel type de performances de calcul de pointe il peut offrir. Il n’y a pas non plus de mot sur la consommation d’énergie, ni sur le coût, mais dans la présentation, Intel dit que l’objectif ici est d’offrir l’équivalent d’un système de transcodage à l’échelle du rack dans une seule puce avec le meilleur TCO de sa catégorie, gagnant sur les performances. par watt par dollar.

Xe-HP devrait être disponible en 2021 pour le marché des entreprises.

Lecture connexe