Lançant une autre conférence de printemps sur la technologie GPU pour NVIDIA, le concepteur de graphiques et d’accélérateurs annonce ce matin qu’ils vont à nouveau concevoir leur propre processeur basé sur Arm. Surnommé Grace – après Grace Hopper, la pionnière de la programmation informatique et le contre-amiral de l’US Navy – le processeur est le dernier coup de main de NVIDIA pour intégrer plus complètement verticalement sa pile matérielle en étant en mesure d’offrir un processeur haute performance aux côtés de ses produits GPU réguliers. Selon NVIDIA, la puce est conçue spécifiquement pour les charges de travail de réseau neuronal à grande échelle et devrait être disponible dans les produits NVIDIA en 2023.

Avec deux ans avant que la puce soit prête, NVIDIA joue les choses relativement timidement en ce moment. La société n’offre que des détails limités pour la puce – elle sera basée sur une future itération des cœurs Arm’s Neoverse, par exemple – car l’annonce d’aujourd’hui est un peu plus axée sur le futur modèle de flux de travail de NVIDIA que sur les vitesses et les flux. Si rien d’autre, la société indique clairement dès le début que, du moins pour le moment, Grace est un produit interne pour NVIDIA, qui sera proposé dans le cadre de ses offres de serveurs plus larges. La société ne vise pas directement le marché des serveurs Intel Xeon ou AMD EPYC, mais au lieu de cela, elle construit sa propre puce pour compléter ses offres de GPU, créant une puce spécialisée qui peut se connecter directement à leurs GPU et aider à gérer d’énormes trillions d’IA de paramètres. des modèles.

Comparaison des spécifications du processeur NVIDIA
la grâce Carmel Denver 2
Cœurs de processeur ? 8 2
Architecture du processeur Arm Neoverse nouvelle génération Bras personnalisé v8.2 Bras personnalisé v8
Bande passante mémoire > 500 Go / s
LPDDR5X
(ECC)
137 Go / s
LPDDR4X
60 Go / s
LPDDR4
Interface GPU-CPU > 900 Go / s
NVLink 4
PCIe 3 PCIe 3
Interface CPU à CPU > 600 Go / s
NVLink 4
N / A N / A
Processus de fabrication ? TSMC 12 nm TSMC 16 nm
Année de sortie 2023 2018 2016

Plus largement, Grace est conçu pour combler le trou de la taille du processeur dans les offres de serveurs IA de NVIDIA. Les GPU de la société sont incroyablement bien adaptés à certaines classes de charges de travail d’apprentissage en profondeur, mais toutes les charges de travail ne sont pas purement liées au GPU, ne serait-ce que parce qu’un processeur est nécessaire pour alimenter les GPU. Les offres de serveurs actuelles de NVIDIA, quant à elles, reposent généralement sur les processeurs EPYC d’AMD, qui sont très rapides à des fins de calcul général, mais ne disposent pas du type d’optimisations d’E / S haute vitesse et d’apprentissage en profondeur que NVIDIA recherche. En particulier, NVIDIA est actuellement goulot d’étranglement par l’utilisation de PCI Express pour la connectivité CPU-GPU; leurs GPU peuvent communiquer rapidement entre eux via NVLink, mais pas avec le processeur hôte ou la RAM système.

La solution au problème, comme c’était le cas même avant Grace, consiste à utiliser NVLink pour les communications CPU-GPU. Auparavant, NVIDIA a travaillé avec la fondation OpenPOWER pour intégrer NVLink dans POWER9 exactement pour cette raison, mais cette relation semble sur le point de disparaître, à la fois à mesure que la popularité de POWER diminue et que POWER10 ignore NVLink. Au lieu de cela, NVIDIA suit sa propre voie en construisant un processeur de serveur Arm avec les fonctionnalités NVLink nécessaires.

Le résultat final, selon NVIDIA, sera un processeur hautes performances et à large bande passante conçu pour fonctionner en tandem avec une future génération de GPU de serveur NVIDIA. Avec NVIDIA parlant de coupler chaque GPU NVIDIA avec un CPU Grace sur une seule carte – similaire aux cartes mezzanine d’aujourd’hui – non seulement les performances du CPU et la mémoire système augmentent avec le nombre de GPU, mais de manière détournée, Grace servira de coprocesseur en quelque sorte aux GPU de NVIDIA. Ceci, si rien d’autre, est une solution très NVIDIA au problème, non seulement en améliorant leurs performances, mais en leur donnant un compteur si AMD ou Intel plus traditionnellement intégré essaient une sorte de jeu de fusion CPU + GPU similaire.

D’ici 2023, NVIDIA atteindra NVLink 4, qui offrira au moins 900 Go / s de bande passante entre le processeur et le GPU, et plus de 600 Go / s entre les processeurs Grace. De manière critique, cela est supérieur à la bande passante mémoire du processeur, ce qui signifie que les GPU de NVIDIA auront un lien cohérent de cache vers le processeur qui peut accéder à la mémoire système à pleine bande passante, et permettant également à l’ensemble du système d’avoir une seule adresse de mémoire partagée. espace. NVIDIA décrit cela comme l’équilibrage de la quantité de bande passante disponible dans un système, et ils ne se trompent pas, mais il y a plus à cela. Avoir un processeur intégré est un moyen majeur d’augmenter la quantité de mémoire Les GPU de NVIDIA peuvent accéder et utiliser efficacement, car la capacité de mémoire continue d’être le principal facteur de contrainte pour les grands réseaux de neurones – vous ne pouvez gérer efficacement un réseau aussi grand que votre pool de mémoire local.

Bande passante d’interconnexion CPU et GPU
la grâce EPYC 2 + A100 EPYC 1 + V100
Interface GPU-CPU > 900 Go / s
NVLink 4
~ 32 Go / s
PCIe 4
~ 16 Go / s
PCIe 3
Interface CPU à CPU > 600 Go / s
NVLink 4
304 Go / s
Tissu Infinity 2
152 Go / s
Tissu Infinity

Et cette stratégie axée sur la mémoire se reflète également dans la conception du pool de mémoire de Grace. Étant donné que NVIDIA met le processeur dans un package partagé avec le GPU, ils vont placer la RAM juste à côté. Les modules GPU équipés de Grace comprendront une quantité à déterminer de mémoire LPDDR5x, NVIDIA ciblant au moins 500 Go / s de bande passante mémoire. En plus d’être ce qui sera probablement l’option de mémoire non graphique à bande passante la plus élevée en 2023, NVIDIA vante l’utilisation de LPDDR5x comme un gain d’efficacité énergétique, en raison des racines axées sur le mobile de la technologie et des longueurs de trace très courtes. Et comme il s’agit d’une partie serveur, la mémoire de Grace sera également compatible ECC.

En ce qui concerne les performances du processeur, c’est en fait la partie où NVIDIA a le moins dit. La société utilisera une future génération de cœurs de processeur Arm’s Neoverse, dont la conception initiale N1 a déjà fait tourner les têtes. Mais à part cela, tout ce que la société dit, c’est que les cœurs devraient casser 300 points sur le benchmark de débit SPECrate2017_int_base, ce qui serait comparable à certains des processeurs EPYC 64 cœurs d’AMD de deuxième génération. La société ne dit pas grand-chose non plus sur la configuration des processeurs ou sur les optimisations ajoutées spécifiquement pour le traitement des réseaux neuronaux. Mais comme Grace est censée prendre en charge les GPU de NVIDIA, je m’attendrais à ce qu’elle soit plus forte là où les GPU en général sont plus faibles.

Sinon, comme mentionné précédemment, l’objectif de grande vision de NVIDIA pour Grace est de réduire considérablement le temps requis pour les plus grands modèles de réseaux neuronaux. NVIDIA vise des performances 10 fois plus élevées sur 1 billion de modèles de paramètres, et leurs projections de performances pour un système Grace + A100 à 64 modules (avec prise en charge théorique de NVLink 4) seraient de réduire la formation d’un tel modèle d’un mois à trois jours. Ou encore, être capable de faire des inférences en temps réel sur un modèle de 500 milliards de paramètres sur un système à 8 modules.

Dans l’ensemble, il s’agit de la deuxième véritable tentative de NVIDIA sur le marché des processeurs de centre de données – et la première qui est susceptible de réussir. Le projet Denver de NVIDIA, initialement annoncé il y a un peu plus de dix ans, ne s’est jamais vraiment déroulé comme prévu par NVIDIA. La famille de cœurs Arm personnalisés n’a jamais été assez bonne et n’a jamais réussi à sortir des SoC mobiles de NVIDIA. Grace, en revanche, est un projet beaucoup plus sûr pour NVIDIA; ils accordent simplement des licences aux cœurs Arm plutôt que de construire les leurs, et ces cœurs seront également utilisés par de nombreuses autres parties. Ainsi, le risque de NVIDIA est réduit en grande partie à une bonne gestion des E / S et de la mémoire, ainsi qu’à la conservation de la conception finale économe en énergie.

Si tout se passe comme prévu, attendez-vous à voir Grace en 2023. NVIDIA confirme déjà que les modules Grace seront disponibles pour une utilisation dans les cartes porteuses HGX, et par extension DGX et tous les autres systèmes qui utilisent ces cartes. Ainsi, bien que nous n’ayons pas vu toute l’étendue des plans Grace de NVIDIA, il est clair qu’ils prévoient d’en faire un élément central des futures offres de serveurs.

Deux premiers clients de supercalculateurs: CSCS et LANL

Et même si Grace n’est pas livrée avant 2023, NVIDIA a déjà aligné ses premiers clients pour le matériel – et ce sont des clients de supercalculateurs, rien de moins. Le Centre national suisse de calcul intensif (CSCS) et le Laboratoire national de Los Alamos annoncent aujourd’hui qu’ils vont commander des supercalculateurs basés sur Grace. Les deux systèmes seront construits par le groupe Cray de HPE et devraient être mis en ligne en 2023.

Le système de CSCS, baptisé Alps, remplacera son système Piz Daint actuel, un cluster Xeon plus NVIDIA P100. Selon les deux sociétés, Alps offrira 20 ExaFLOPS de performances d’IA, ce qui est vraisemblablement une combinaison de processeur, de cœur CUDA et de débit de cœur tensoriel. Lors de son lancement, Alps devrait être le supercalculateur axé sur l’IA le plus rapide au monde.


Une interprétation par un artiste du système attendu des Alpes

Il est toutefois intéressant de noter que les ambitions du CSCS pour le système vont au-delà des simples charges de travail d’apprentissage automatique. L’institut a déclaré qu’il utilisera Alps comme un système à usage général, travaillant sur des tâches de type HPC plus traditionnelles ainsi que sur des tâches axées sur l’IA. Cela comprend les recherches traditionnelles du CSCS sur le temps et le climat, pour lesquelles le pré-AI Piz Daint est déjà utilisé également.

Comme mentionné précédemment, Alps sera construit par HPE, qui se basera sur l’architecture Cray EX précédemment annoncée. Cela ferait de Grace de NVIDIA la deuxième option de processeur pour Cray EX, avec les processeurs EPYC d’AMD.

Pendant ce temps, le système de Los Alamos est en cours de développement dans le cadre d’une collaboration continue entre le laboratoire et NVIDIA, LANL étant le premier client basé aux États-Unis à recevoir un système Grace. LANL ne discute pas des performances attendues de son système au-delà du fait qu’il devrait être «de classe leader», bien que le laboratoire envisage de l’utiliser pour des simulations 3D, en tirant parti des plus grandes tailles de jeux de données offertes par Grace. Le système LANL devrait être livré début 2023.