L’un des éléments les plus ésotériques de la Journée de l’architecture d’Intel 2020 est arrivé très près de la fin, où Intel a passé quelques minutes à discuter de ce qu’il pense être l’avenir de certains de ses produits. Brijesh Tripathi, vice-président et directeur technique du groupe d’informatique client d’Intel, a présenté une vision de l’avenir de ses produits clients à l’horizon 2024 et plus. Centré sur le processus de fabrication 7+ d’Intel, l’objectif était d’activer le «Client 2.0» – une nouvelle façon de proposer et de permettre des expériences immersives grâce à une stratégie de développement de silicium plus optimisée.

Les puces ne sont pas nouvelles, en particulier avec les lancements récents des concurrents d’Intel, et à mesure que nous entrons dans le développement de nœuds de processus plus complexes, l’ère des puces permet une mise sur le marché plus rapide ainsi que de meilleurs regroupements et rendements pour un produit donné. La clé est de savoir comment ces chiplets s’emboîtent et à quels points il est logique de mélanger et de faire correspondre les éléments pertinents. Intel en a déjà parlé dans un contexte plus général, lors de sa journée de la technologie et de la fabrication 2017, comme le montre l’image du carrousel en haut.

L’objectif ici est de mélanger et de faire correspondre les nœuds de processus qui fonctionnent le mieux pour différentes parties de la puce. Intel semble prêt à réaliser cette vision en commençant par sa plate-forme 7 nm. Lors de la Journée de l’architecture 2020, Brijesh Tripathi a montré cette diapositive:

Sur la gauche se trouve une conception de puce typique – monolithique avec tout ce dont elle a besoin. Pour les produits de pointe d’Intel, leur développement prend 3 à 4 ans, et des bogues sont détectés dans le silicium par Intel au départ, puis par les partenaires d’Intel, car ils peuvent augmenter le temps de mise en marche du silicium de quelques ordres de grandeur.

Au milieu se trouve une disposition de chiplet de base, similaire à cette diapositive de 2017, où différentes fonctions du dé sont divisées en leurs propres modules. En supposant une interconnexion cohérente, il y a une certaine réutilisation des éléments de silicium, tels que AMD en utilisant les mêmes matrices de calcul de base dans le client et le serveur. Pour certaines sociétés de semi-conducteurs (à l’exception d’Intel), c’est là que nous en sommes.

Sur la droite, Intel voit son avenir. Au lieu d’avoir un nombre à un chiffre de puces dans un produit, il envisage un monde où chaque IP peut être divisée en plusieurs puces, permettant aux produits d’être construits avec différentes configurations de ce qui fonctionne pour le marché. Dans ce cas, un chiplet peut être un lien PCIe 4.0 x16 – si le produit a besoin de plus, il ajoute simplement plus de ces chiplets. Idem avec les canaux de mémoire, les cœurs, les accélérateurs multimédias, les accélérateurs IA, les moteurs de Ray Tracing, les accélérateurs cryptographiques, les graphiques, ou même jusqu’à la SRAM et les blocs de mise en cache. L’idée est que chaque adresse IP peut être divisée puis mise à l’échelle. Cela signifie que les puces sont minuscules, peuvent être construites relativement rapidement et que les bogues doivent être éliminés très rapidement.

Dans ce diagramme, nous sommes traités avec la vision à long terme d’Intel pour le client – un interposeur de base avec une mémoire intégrée au package (quelque chose comme une L3 ou L4) qui peut servir de cache SRAM principal pour l’ensemble de la puce, puis en haut de cela, nous obtenons 24 puces différents. Les chipsets peuvent être des graphiques, des cœurs, de l’IA, des médias, des E / S ou autre chose, mais ils peuvent être mélangés et assortis en fonction de ce qui est nécessaire. Un créateur de contenu peut souhaiter un équilibre entre une bonne accélération graphique et des calculs, tandis qu’un joueur peut vouloir se concentrer uniquement sur les graphiques. Un client d’entreprise ou un poste de travail peut avoir besoin de moins de graphiques et plus pour le calcul et l’IA, tandis qu’une version mobile de la puce sera fortement investie dans les E / S.

Comme toujours, il y a un compromis entre la taille des chips et la complexité de leur assemblage dans un arrangement multi-matrice. Toute communication entre des puces coûte plus d’énergie qu’une interprétation monolithique et offre généralement une latence plus élevée. Les thermiques doivent également être gérés, et donc parfois ces puces sont limitées par les propriétés thermiques disponibles. Les agencements multi-puces provoquent également des maux de tête pour les appareils mobiles, où la hauteur z est critique. Cependant, les avantages liés à l’utilisation du bon processus au bon moment pour le bon produit sont considérables, car cela permet de fournir à la fois performances et puissance au meilleur coût possible. Cela donne également la possibilité d’amener 3rd Party IP rapidement si quelque chose d’extraordinaire frappe la scène.

Le seul inconvénient ici est qu’Intel n’a pas beaucoup parlé de la colle qui lie tout cela. Les stratégies Chiplet reposent sur des protocoles d’interconnexion haut débit complexes, personnalisés ou non. Les utilisations actuelles de la connectivité die-to-die d’Intel sont soit simplement des protocoles de mémoire, soit des extensions de structure FPGA – les plus importants pour les processeurs de serveur comme UPI ne sont pas nécessairement à la hauteur de la tâche. CXL pourrait être l’avenir ici, mais le CXL actuel est construit sur PCIe, ce qui signifie un contrôleur CXL / PCIe complexe pour chaque puce qui aura probablement faim rapidement.

Intel a déclaré qu’il inventait une nouvelle technologie d’emballage et de nouveaux niveaux de connectivité pour agir entre le silicium – il n’y a aucune divulgation sur les protocoles pour le moment, mais Intel reconnaît que pour atteindre ce niveau d’échelle, il devra aller au-delà de ce que l’entreprise a aujourd’hui, et cela nécessitera la création de normes et d’innovation dans ce domaine. L’objectif est de créer et de prendre en charge des normes, et la première incarnation aura une certaine normalisation intégrée. Intel déclare qu’il s’agit d’une méthode de désagrégation extrême, et de noter que tout ce qui est connecté ne doit pas nécessairement être à bande passante élevée (comme l’USB) ou une interconnexion cohérente – Intel voit l’objectif impliquant une poignée de protocoles sur tout le spectre.

Il y a aussi le marché des développeurs, qui pourrait être utilisé pour une implémentation plus homogène des ressources dans un produit donné. Sans une planification minutieuse et un codage pertinent, certaines configurations de chipset risquent de tomber si le développeur s’attendait à un certain rapport entre le calcul et les graphiques, par exemple. Ce n’est pas quelque chose que OneAPI pourrait facilement résoudre.

Ce sont tous des problèmes qu’Intel devra résoudre, bien qu’il leur reste quelques années avant que cela se concrétise. On nous a dit que le nom interne est Client 2.0, bien qu’il y aura probablement plus d’habillage marketing ajouté au fur et à mesure qu’Intel commencera à en parler plus en détail.

Lecture connexe