Aujourd’hui, Xilinx annonce une extension de sa famille Versal, axée spécifiquement sur les appareils à faible consommation et à la périphérie. Xilinx Versal est la production d’une combinaison de nombreuses technologies de processeur différentes : portes logiques programmables (FPGA), cœurs de bras, mémoire rapide, moteurs AI, DSP programmables, contrôleurs de mémoire renforcés et E/S – les avantages de toutes ces technologies signifient que Versal peut à l’échelle du Premium haut de gamme (lancé en 2020), et maintenant jusqu’aux appareils de classe de pointe, tous construits sur les processus 7 nm de TSMC. Les nouveaux processeurs Versal AI Edge de Xilinx commencent à 6 W, jusqu’à 75 W.

En route pour l’ACAP

Il y a quelques années, Xilinx a vu un changement dans les exigences de ses clients – bien qu’étant un fournisseur de FPGA, les clients voulaient quelque chose qui s’apparente davantage à un processeur ordinaire, mais avec la flexibilité d’un FPGA. En 2018, la société a introduit le concept d’ACAP, une plate-forme d’accélération informatique adaptative qui offrait un calcul, une mémoire et des E/S renforcés comme un processeur traditionnel, mais également des moteurs logiques et d’accélération programmables substantiels à partir d’un FPGA. Les premiers processeurs ACAP haut de gamme, construits sur TSMC N7, ont été présentés en 2020 et comportaient un grand silicium premium, certains avec HBM, pour des charges de travail hautes performances.

Ainsi, plutôt que d’avoir une conception 100 % FPGA, en transférant une partie de cette zone de matrice vers une logique renforcée comme des cœurs de processeur ou de la mémoire, la conception ACAP de Xilinx permet une gamme complète de blocs IP standardisés dédiés à une puissance inférieure et une zone de matrice plus petite, tout en conservant toujours une bonne partie du silicium pour FPGA permettant aux clients de déployer des solutions logiques personnalisées. Cela a été important dans l’avancement de l’IA, à mesure que les algorithmes évoluent, que de nouveaux cadres prennent forme ou que différents réseaux de calcul nécessitent des équilibres de ressources différents. Le fait d’avoir un FPGA sur puce, couplé à une IP durcie standard, permet à l’installation d’un seul produit de durer de nombreuses années à mesure que les algorithmes se rééquilibrent et se mettent à jour.

Xilinx Versal AI Edge : nouvelle génération

Sur ce dernier point concernant le fait d’avoir un produit installé pendant une décennie et de devoir mettre à jour les algorithmes, cela n’est en aucun cas plus vrai qu’avec les appareils « edge » traditionnels. À la « périphérie », nous parlons de capteurs, de caméras, de systèmes industriels, de systèmes commerciaux – des équipements qui doivent durer pendant toute leur durée de vie, quel que soit le matériel qu’ils contiennent. Il existe aujourd’hui des systèmes de périphérie construits sur du matériel pré-2000, pour vous donner une portée de ce marché. En conséquence, il y a toujours un effort pour rendre l’équipement de pointe plus malléable à mesure que les besoins et les cas d’utilisation changent. C’est ce que Xilinx vise avec son nouveau portefeuille Versal AI Edge – la capacité de mettre à jour en permanence les fonctionnalités « intelligentes » dans des équipements tels que les caméras, la robotique, l’automatisation, le médical et d’autres marchés.

Le dispositif Versal traditionnel de Xilinx contient un certain nombre de moteurs scalaires (cœurs Arm A72 pour les applications, cœur Arm R5 pour le temps réel), des moteurs intelligents (blocs AI, DSP), des moteurs adaptables (FPGA) et des IO (PCIe, DDR, Ethernet, MIPI). Pour les plus gros produits Versal, ceux-ci sont volumineux et puissants, facilités par un réseau programmable sur puce. Pour la plate-forme AI Edge de Versal, il y a deux nouvelles fonctionnalités dans le mélange.

Le premier est l’utilisation de l’accélérateur SRAM placé très près des moteurs scalaires. Plutôt que des caches traditionnels, il s’agit d’un bloc-notes configurable dédié avec une SRAM dense auquel les moteurs peuvent accéder à faible latence plutôt que de traverser le bus mémoire. Les caches traditionnels utilisent des algorithmes prédictifs pour extraire les données de la mémoire principale, mais si le programmeur connaît la charge de travail, il peut s’assurer que les données nécessaires aux points les plus critiques de latence peuvent déjà être placées à proximité du processeur avant que les prédicteurs sachent quoi faire. Ce bloc de 4 Mo a une latence déterministe, permettant également au R5 temps réel d’intervenir, et offre 12,8 Go/s de bande passante au R5. Il dispose également d’une bande passante de 35 Go/s vers les moteurs d’IA pour les données qui doivent être traitées dans cette direction.

L’autre mise à jour se trouve dans les moteurs AI eux-mêmes. Le matériel d’origine de Xilinx Versal permettait les deux types d’apprentissage automatique : la formation et l’inférence. Ces deux charges de travail ont des points d’optimisation différents pour le calcul et la mémoire, et alors qu’il était important sur les grosses puces de prendre en charge les deux, ces processeurs Edge seront presque exclusivement utilisés pour l’inférence. En conséquence, Xilinx a reconfiguré le noyau et appelle ces nouveaux moteurs « AIE-ML ».

La configuration AIE-ML la plus simple, sur le processeur 6W, dispose de 8 moteurs AIE-ML, tandis que la plus grande en a 304. Ce qui les différencie des moteurs habituels est d’avoir le double du cache de données local par moteur, des tuiles de mémoire supplémentaires pour la SRAM globale accès et prise en charge native des types de données spécifiques à l’inférence, tels que INT4 et BF16. Au-delà, les multiplicateurs sont également doublés, permettant une double performance INT8.

La combinaison de ces deux fonctionnalités signifie que Xilinx revendique des performances 4x par watt par rapport aux solutions GPU traditionnelles (vs AGX Xavier), 10x la densité de calcul (vs Zynq Ultrascale) et plus d’adaptabilité à mesure que les charges de travail de l’IA changent. À cela s’ajoutera une validation supplémentaire avec prise en charge de plusieurs normes de sécurité dans de nombreux secteurs industriels.

Lors de notre briefing avec Xilinx, il y avait un commentaire particulier qui m’a frappé à la lumière de la demande mondiale actuelle de semi-conducteurs. Tout se résume à une diapositive, où Xilinx a comparé ses propres solutions automobiles actuelles pour la conduite de niveau 3 à sa nouvelle solution.

Dans cette situation, pour permettre le pilotage de niveau 3, la solution actuelle utilise trois processeurs, totalisant 1259 mm2 de silicium, puis au-delà de cette mémoire pour chaque processeur et autres. La nouvelle solution Versal AI Edge remplace les trois FPGA Zynq, réduisant 3 processeurs à 1, passant à 529 mm2 de silicium pour la même puissance, mais aussi avec 4 fois les capacités de calcul. Même si un constructeur automobile a doublé pour la redondance, la nouvelle solution est toujours moins zone de filière que la précédente.

Cela va être une caractéristique clé des solutions de processeur à mesure que nous avançons – la quantité de silicium nécessaire pour réellement faire fonctionner une plate-forme. Moins de silicium signifie généralement moins de coûts et moins de contraintes sur la chaîne d’approvisionnement des semi-conducteurs, ce qui permet de traiter plus d’unités dans un laps de temps fixe. Le compromis est que le gros silicium pourrait ne pas produire aussi bien, ou ce n’est peut-être pas la configuration optimale des nœuds de processus pour la puissance (et le coût à cet égard), cependant si l’industrie est finalement limitée sur le débit et l’emballage du silicium, il est une considération qui mérite d’être prise en compte.

Cependant, comme d’habitude au pays des FPGA (ou ACAP), les annonces arrivent plus tôt et les progrès avancent un peu plus lentement. L’annonce de Xilinx aujourd’hui correspond uniquement au fait que la documentation est disponible aujourd’hui, avec un échantillon de silicium disponible dans la première moitié de 2022. Un kit de test et d’évaluation complet arrivera dans la seconde moitié de 2022. Xilinx suggère que les clients intéressés par l’AI Edge La plate-forme peut commencer le prototypage dès aujourd’hui avec le kit d’évaluation Versal AI ACAP VCK190 et migrer.

Les spécifications complètes des processeurs AI Edge se trouvent dans la diapositive ci-dessous. Le nouvel accélérateur SRAM est sur les quatre premiers processeurs, tandis que AIE-ML est sur toutes les pièces de la série 2000. Xilinx a indiqué que tous les processeurs AI Edge seront construits sur le processus N7+ de TSMC.

Lecture connexe