20 h 37 HAE – Conférence Xe d’Intel, par David Blythe

20 h 37 HAE – David a fait la présentation d’Intel Architecture Xe

20 h 38 HAE – Aller de l’avant dans l’architecture que précédemment couvert par GPU intégré

20 h 38 HAE – Passer de Gen à Xe -> exascale pour tout le monde

20 h 38 HAE – Objectifs: augmenter les voies SIMD de 10 à 1000

20 h 38 HAE – Ajouter de nouvelles fonctionnalités – tenseurs matriciels, traçage de rayons, virtualisation, etc.

20 h 38 HAE – Également des améliorations PPA

20 h 39 HAE – Nécessite beaucoup de nouveau design par rapport à Gen11

20 h 39 HAE – Xe évoluera de LP à HPG, HP, HPC

20 h 39 HAE – Optimisé pour les différentes exigences du marché

20 h 40 HAE – Aller au-delà de l’ajout d’unités d’exécution – mais optimiser chaque segment avec des exigences individuelles

20 h 40 HAE – Tels que le lancer de rayons, les médias, FP64, etc.

20 h 40 HAE – LP est intégré et entrée

20 h 40 HAE – HPG est milieu de gamme et passionné

20 h 40 HAE – HP est Datacenter et AI

20 h 40 HAE – Le HPC est exascale

20 h 41 HAE – Il existe une architecture Xe de haut niveau

20 h 41 HAE – Tranche 3D / Calcul, tranche multimédia, structure mémoire

20 h 41 HAE – Chaque tranche a des sous-tranches

20 h 41 HAE – shaders programmables

20 h 41 HAE – (Chaque tranche de calcul est de 96 UE)

20h42 HAE – La géométrie s’est déplacée à l’intérieur de la tranche et maintenant distribuée

20h42 HAE – La taille de la tranche est réglable

20h42 HAE – La sous-tranche a 16 UE

20h42 HAE – Unités de fonction fixes (en option en fonction du segment)

20h42 HAE – 16 UE = 128 voies SIMD

20 h 43 HAE – blocs matériels pour le lancer de rayons

20 h 43 HAE – XeHPG qui utilise le lancer de rayons dans le laboratoire aujourd’hui

20 h 43 HAE – Bloc-notes L1

20 h 43 HAE – Unité d’exécution Xe

20 h 44 HAE – 8 ports INT / FP, 2 mathématiques complexes

20 h 44 HAE – Le traitement des médias peut également être mis à l’échelle avec des tranches de médias

20 h 44 HAE – de-noise, de-entrelacement, tone mapping est tout ici

20 h 45 HAE – peut distribuer un flux sur plusieurs tranches

20 h 45 HAE – Tissu mémoire Xe

20 h 45 HAE – Cache L3 et Rambo

20 h 45 HAE – Beaucoup de trucs optionnels ici

20 h 46 HAE – Permet une mise à l’échelle à 1000 des EU

20 h 46 HAE – Nécessite plusieurs matrices

20 h 46 HAE – Désagrégation de tuiles de bas niveau

20 h 47 HAE – Plusieurs tuiles fonctionnent comme des GPU séparés ou un seul GPU

20 h 47 HAE – EMIB fait XeMF

20 h 47 HAE – Xe Link active XeMF de GPU à GPU

20 h 48 HAE – XeHP avec HBM2e

20 h 48 HAE – XeLP est optimisé pour la faible puissance

20 h 48 HAE – Tiger Lake, SG1 et DG1 seront tous XeLP

20 h 49 HAE – L’objectif de Tiger Lake était d’augmenter les performances de 2x dans les graphiques

20 h 49 HAE – GPU EU 1,5x plus grands avec des actifs mis à l’échelle

20 h 49 HAE – 96 EU, 1536 opérations 32 bits / horloge

20 h 50 HAE – La fréquence est également 1,5x

20 h 51 HE – Tiger Lake Xe a une plus grande plage dynamique

20 h 51 HE – embarquement de score logiciel par UE

20 h 52 HE – Les paires d’UE fonctionnent de manière synchronisée grâce au contrôle de thread partagé

20 h 52 HE – Taux 2xINT16 et INT32, produit scalaire INT8 rapide qui s’accumule en un résultat INT32

20 h 52 HE – Chaque sous-tranche a une L1, et jusqu’à 16 Mo L3

20 h 54 HE – Prise en charge AV1

20 h 54 HE – Pièces XeHP dans le laboratoire

20 h 55 HAE – XeHP jusqu’à 4 tuiles

20 h 55 HAE – 1 boîte de tuiles à 10,6 GFLOP FP32

20 h 56 HAE – 2 boîtes de tuiles au 21161 GFLOP FP32

20 h 56 HAE – 4 carreaux peuvent faire ~ 42k GFLOP FP32

20 h 56 HAE – Montre que XeHP peut évoluer

20 h 57 HE – Xe se répandra sur différents nœuds et fabrication

20 h 58 HE – Temps de questions et réponses

20 h 58 HE – Q: Xe Matrix via AMX? R: Il y aura une API, divulguée plus tard

20 h 58 HE – Q: code de pilote open source? R: Oui, pour intégré et discret

20 h 59 HAE – Q: Pourquoi 1 unité RT pour 16 UE? R: Cela semblait être la bonne évolutivité. Le débit RT peut également être modulé – ce n’est pas seulement une chose de taille fixe. Aucun détail pour le moment.

21 h 00 HAE – Q: Tile-to-tile vs Xe Link? R: Tile-to-tile est le protocole interne de XeMF, mais XeLink expose le protocole, pas de détails mais léger

21 h 00 HAE – Q: CXL? R: Il y a une intention de soutenir, en travaillant toujours sur les détails

21 h 01 HAE – Q: communications CPU vers GPU? R: Pour XeHPC, il y a une intention de prendre en charge CXL

21 h 02 HE – Q: Pourquoi les fonctions fixes 3D sont-elles facultatives? R: Toutes les zones n’ont pas besoin de la 3D, comme XeHPC. Peut les désactiver au moment de la conception si nécessaire. Les GPU ne peuvent pas toujours transporter des bagages dans des produits spécifiques

21 h 03 HAE – Q: Threads dans une UE? R: Pas beaucoup changé. 1 ou 2, en TGL prend en charge 7, un peu plus haut dans les autres

21 h 04 HAE – Q: API pour le lancer de rayons? R: Les standards. Khronos, MS. Pour le rendu haut de gamme, il y aura OneAPI pour plus de rendu de type production. Plus de détails plus tard, similaire à l’intégration sur le processeur

21 h 04 HAE – C’est une enveloppe. La prochaine étape est Xbox