20 h 37 HAE – Conférence Xe d’Intel, par David Blythe
20 h 37 HAE – David a fait la présentation d’Intel Architecture Xe
20 h 38 HAE – Aller de l’avant dans l’architecture que précédemment couvert par GPU intégré
20 h 38 HAE – Passer de Gen à Xe -> exascale pour tout le monde
20 h 38 HAE – Objectifs: augmenter les voies SIMD de 10 à 1000
20 h 38 HAE – Ajouter de nouvelles fonctionnalités – tenseurs matriciels, traçage de rayons, virtualisation, etc.
20 h 38 HAE – Également des améliorations PPA
20 h 39 HAE – Nécessite beaucoup de nouveau design par rapport à Gen11
20 h 39 HAE – Xe évoluera de LP à HPG, HP, HPC
20 h 39 HAE – Optimisé pour les différentes exigences du marché
20 h 40 HAE – Aller au-delà de l’ajout d’unités d’exécution – mais optimiser chaque segment avec des exigences individuelles
20 h 40 HAE – Tels que le lancer de rayons, les médias, FP64, etc.
20 h 40 HAE – LP est intégré et entrée
20 h 40 HAE – HPG est milieu de gamme et passionné
20 h 40 HAE – HP est Datacenter et AI
20 h 40 HAE – Le HPC est exascale
20 h 41 HAE – Il existe une architecture Xe de haut niveau
20 h 41 HAE – Tranche 3D / Calcul, tranche multimédia, structure mémoire
20 h 41 HAE – Chaque tranche a des sous-tranches
20 h 41 HAE – shaders programmables
20 h 41 HAE – (Chaque tranche de calcul est de 96 UE)
20h42 HAE – La géométrie s’est déplacée à l’intérieur de la tranche et maintenant distribuée
20h42 HAE – La taille de la tranche est réglable
20h42 HAE – La sous-tranche a 16 UE
20h42 HAE – Unités de fonction fixes (en option en fonction du segment)
20h42 HAE – 16 UE = 128 voies SIMD
20 h 43 HAE – blocs matériels pour le lancer de rayons
20 h 43 HAE – XeHPG qui utilise le lancer de rayons dans le laboratoire aujourd’hui
20 h 43 HAE – Bloc-notes L1
20 h 43 HAE – Unité d’exécution Xe
20 h 44 HAE – 8 ports INT / FP, 2 mathématiques complexes
20 h 44 HAE – Le traitement des médias peut également être mis à l’échelle avec des tranches de médias
20 h 44 HAE – de-noise, de-entrelacement, tone mapping est tout ici
20 h 45 HAE – peut distribuer un flux sur plusieurs tranches
20 h 45 HAE – Tissu mémoire Xe
20 h 45 HAE – Cache L3 et Rambo
20 h 45 HAE – Beaucoup de trucs optionnels ici
20 h 46 HAE – Permet une mise à l’échelle à 1000 des EU
20 h 46 HAE – Nécessite plusieurs matrices
20 h 46 HAE – Désagrégation de tuiles de bas niveau
20 h 47 HAE – Plusieurs tuiles fonctionnent comme des GPU séparés ou un seul GPU
20 h 47 HAE – EMIB fait XeMF
20 h 47 HAE – Xe Link active XeMF de GPU à GPU
20 h 48 HAE – XeHP avec HBM2e
20 h 48 HAE – XeLP est optimisé pour la faible puissance
20 h 48 HAE – Tiger Lake, SG1 et DG1 seront tous XeLP
20 h 49 HAE – L’objectif de Tiger Lake était d’augmenter les performances de 2x dans les graphiques
20 h 49 HAE – GPU EU 1,5x plus grands avec des actifs mis à l’échelle
20 h 49 HAE – 96 EU, 1536 opérations 32 bits / horloge
20 h 50 HAE – La fréquence est également 1,5x
20 h 51 HE – Tiger Lake Xe a une plus grande plage dynamique
20 h 51 HE – embarquement de score logiciel par UE
20 h 52 HE – Les paires d’UE fonctionnent de manière synchronisée grâce au contrôle de thread partagé
20 h 52 HE – Taux 2xINT16 et INT32, produit scalaire INT8 rapide qui s’accumule en un résultat INT32
20 h 52 HE – Chaque sous-tranche a une L1, et jusqu’à 16 Mo L3
20 h 54 HE – Prise en charge AV1
20 h 54 HE – Pièces XeHP dans le laboratoire
20 h 55 HAE – XeHP jusqu’à 4 tuiles
20 h 55 HAE – 1 boîte de tuiles à 10,6 GFLOP FP32
20 h 56 HAE – 2 boîtes de tuiles au 21161 GFLOP FP32
20 h 56 HAE – 4 carreaux peuvent faire ~ 42k GFLOP FP32
20 h 56 HAE – Montre que XeHP peut évoluer
20 h 57 HE – Xe se répandra sur différents nœuds et fabrication
20 h 58 HE – Temps de questions et réponses
20 h 58 HE – Q: Xe Matrix via AMX? R: Il y aura une API, divulguée plus tard
20 h 58 HE – Q: code de pilote open source? R: Oui, pour intégré et discret
20 h 59 HAE – Q: Pourquoi 1 unité RT pour 16 UE? R: Cela semblait être la bonne évolutivité. Le débit RT peut également être modulé – ce n’est pas seulement une chose de taille fixe. Aucun détail pour le moment.
21 h 00 HAE – Q: Tile-to-tile vs Xe Link? R: Tile-to-tile est le protocole interne de XeMF, mais XeLink expose le protocole, pas de détails mais léger
21 h 00 HAE – Q: CXL? R: Il y a une intention de soutenir, en travaillant toujours sur les détails
21 h 01 HAE – Q: communications CPU vers GPU? R: Pour XeHPC, il y a une intention de prendre en charge CXL
21 h 02 HE – Q: Pourquoi les fonctions fixes 3D sont-elles facultatives? R: Toutes les zones n’ont pas besoin de la 3D, comme XeHPC. Peut les désactiver au moment de la conception si nécessaire. Les GPU ne peuvent pas toujours transporter des bagages dans des produits spécifiques
21 h 03 HAE – Q: Threads dans une UE? R: Pas beaucoup changé. 1 ou 2, en TGL prend en charge 7, un peu plus haut dans les autres
21 h 04 HAE – Q: API pour le lancer de rayons? R: Les standards. Khronos, MS. Pour le rendu haut de gamme, il y aura OneAPI pour plus de rendu de type production. Plus de détails plus tard, similaire à l’intégration sur le processeur
21 h 04 HAE – C’est une enveloppe. La prochaine étape est Xbox