Dans le cadre des annonces d’International Supercomputing 2021 (ISC) d’aujourd’hui, Intel annonce le lancement d’une version de son prochain processeur Sapphire Rapids (SPR) Xeon Scalable avec mémoire à large bande passante (HBM). Cette version de SPR-HBM arrivera plus tard en 2022, après le lancement principal de Sapphire Rapids, et Intel a déclaré qu’elle fera partie de son offre de disponibilité générale pour tous, plutôt que d’une implémentation spécifique au fournisseur.

Atteindre une limite de bande passante mémoire

Comme le nombre de cœurs a augmenté dans l’espace processeur du serveur, les concepteurs de ces processeurs doivent s’assurer qu’il y a suffisamment de données pour les cœurs afin de permettre des performances optimales. Cela signifie développer de grands caches rapides par cœur afin que suffisamment de données soient à proximité à haute vitesse, qu’il y ait des interconnexions à bande passante élevée à l’intérieur du processeur pour faire circuler les données, et qu’il y ait suffisamment de bande passante de mémoire principale à partir des magasins de données situés hors du processeur.


Notre système Ice Lake Xeon Review avec 32 emplacements DDR4-3200

Chez AnandTech, nous avons interrogé les vendeurs de processeurs sur ce dernier point, à propos de la mémoire principale, depuis un certain temps. Il n’y a qu’une quantité limitée de bande passante qui peut être obtenue en ajoutant continuellement des canaux de mémoire DDR4 (et bientôt DDR5). Les conceptions actuelles de mémoire DDR4-3200 à huit canaux, par exemple, ont un maximum théorique de 204,8 gigaoctets par seconde, ce qui est dérisoire par rapport aux GPU qui citent 1000 gigaoctets par seconde ou plus. Les GPU sont capables d’atteindre des bandes passantes plus élevées car ils utilisent la GDDR, soudée sur la carte, ce qui permet des tolérances plus strictes au détriment d’une conception modulaire. Très peu de processeurs principaux pour serveurs ont déjà eu une mémoire principale intégrée à un tel niveau.


Intel Xeon Phi ‘KNL’ avec 8 pads MCDRAM en 2015

L’un des processeurs qui étaient construits avec une mémoire intégrée était le Xeon Phi d’Intel, un produit abandonné il y a quelques années. La base de la conception du Xeon Phi reposait sur de nombreux calculs vectoriels, contrôlés par jusqu’à 72 cœurs de base, mais associés à 8 à 16 Go de « MCDRAM » embarquée, connectés via 4 à 8 puces intégrées dans le boîtier. Cela permettait 400 gigaoctets par seconde de cache ou de mémoire adressable, associés à 384 Go de mémoire principale à 102 gigaoctets par seconde. Cependant, depuis l’arrêt de Xeon Phi, aucun processeur de serveur principal (au moins pour x86) annoncé au public n’a eu ce genre de configuration.

Nouveaux rapides Sapphire avec mémoire à large bande passante

Jusqu’à l’année prochaine, c’est. Le nouveau Sapphire Rapids Xeon Scalable d’Intel avec mémoire à large bande passante (SPR-HBM) arrivera sur le marché. Plutôt que de le cacher pour l’utiliser avec un hyperscaler particulier, Intel a déclaré AnandTech qu’ils s’engagent à mettre Sapphire Rapids compatible HBM à la disposition de tous les clients d’entreprise et fournisseurs de serveurs. Ces versions sortiront après le lancement principal de Sapphire Rapids et proposeront des configurations intéressantes. Nous comprenons que cela signifie que SPR-HBM sera disponible dans une configuration à socket.

Intel déclare que SPR-HBM peut être utilisé avec la DDR5 standard, offrant un niveau supplémentaire de mise en cache mémoire. Le HBM peut être adressé directement ou laissé en tant que cache automatique, ce qui serait très similaire à la façon dont les processeurs Xeon Phi d’Intel pourraient accéder à leur mémoire à bande passante élevée.

Alternativement, SPR-HBM peut fonctionner sans aucune DDR5. Cela réduit l’empreinte physique du processeur, permettant une conception plus dense dans les serveurs à calcul dense qui ne reposent pas beaucoup sur la capacité de mémoire (ces clients demandaient déjà des optimisations de conception à quatre canaux de toute façon).

La quantité de mémoire n’a pas été divulguée, ni la bande passante ou la technologie. À tout le moins, nous nous attendons à l’équivalent de jusqu’à 8 piles Hi de HBM2e, jusqu’à 16 Go chacune, avec 1 à 4 piles intégrées menant à 64 Go de HBM. À une vitesse maximale théorique de 460 Go/s par pile, cela signifierait 1 840 Go/s de bande passante, bien que nous puissions imaginer quelque chose de plus proche de 1 To/s pour le rendement et la puissance, ce qui donnerait tout de même une augmentation considérable. Selon la demande, Intel peut remplir différentes versions de la mémoire dans différentes options de processeur.

L’un des éléments clés à considérer ici est que la mémoire intégrée au boîtier aura un coût d’alimentation associé au sein du boîtier. Ainsi, pour chaque watt requis par le HBM dans le package, cela représente un watt de moins pour les performances de calcul sur les cœurs du processeur. Cela étant dit, les processeurs de serveur ne repoussent souvent pas les limites des fréquences de pointe, optant plutôt pour un point de puissance/fréquence plus efficace et adaptant les cœurs. Cependant, HBM à cet égard est un compromis – si HBM prenait 10 à 20 W par pile, quatre piles pèseraient facilement sur le budget d’alimentation du processeur (et ce budget d’alimentation doit être géré avec des contrôleurs supplémentaires et une alimentation électrique, ce qui ajoute de la complexité et coût).

Une chose qui était déroutante à propos de la présentation d’Intel, et j’ai posé la question à ce sujet, mais ma question a été ignorée lors du briefing virtuel, c’est qu’Intel continue de publier différentes images de package de Sapphire Rapids. Dans le briefing deck de cette annonce, il y avait déjà deux variantes. Celui ci-dessus (qui ressemble en fait à un package Xe-HP allongé sur lequel quelqu’un a apposé un logo) et celui-ci (qui est plus carré et a des encoches différentes):

Il y a eu des fuites non confirmées en ligne présentant SPR dans un troisième package différent, ce qui rend tout cela déroutant.

Sapphire Rapids : ce que nous savons

Intel taquine Sapphire Rapids depuis près de deux ans en tant que successeur de sa famille de processeurs Ice Lake Xeon Scalable. Construit sur 10 nm Enhanced SuperFin, SPR sera le premier processeur d’Intel à utiliser la mémoire DDR5, à disposer d’une connectivité PCIe 5 et à prendre en charge CXL 1.1 pour les connexions de nouvelle génération. Également sur la mémoire, Intel a déclaré que Sapphire Rapids prendrait en charge Crow Pass, la prochaine génération de mémoire Intel Optane.

Pour la technologie de base, Intel a (re)confirmé que Sapphire Rapids utilisera les cœurs Golden Cove dans le cadre de sa conception. Golden Cove sera au cœur du processeur grand public d’Alder Lake d’Intel plus tard cette année, mais Intel n’a pas tardé à souligner que Sapphire Rapids offrira une configuration « optimisée pour le serveur » du cœur. Intel l’a fait dans le passé avec ses processeurs Skylake Xeon et Ice Lake Xeon dans lesquels la variante de serveur a souvent une structure de cache L2/L3 différente de celle des processeurs grand public, ainsi qu’une interconnexion différente (anneau vs maillage, maillage sur les serveurs) .

Sapphire Rapids sera le processeur central au cœur du supercalculateur Aurora d’Argonne National Labs, où deux processeurs SPR seront associés à six accélérateurs Intel Ponte Vecchio, qui seront également nouveaux sur le marché. Dans le cadre de cette annonce d’aujourd’hui, Intel a également déclaré que Ponte Vecchio sera largement disponible, en OAM et en facteurs de forme 4x denses :

Sapphire Rapids sera également les premiers processeurs Intel à prendre en charge les extensions matricielles avancées (AMX), qui, selon nous, aident à accélérer les flux de travail matriciels lourds tels que l’apprentissage automatique, tout en prenant également en charge BFloat16. Cela sera associé à des mises à jour du logiciel Intel DL Boost et à la prise en charge de OneAPI. Les processeurs Intel étant toujours très appréciés pour le machine learning, notamment la formation, Intel souhaite capitaliser sur toute croissance future de ce marché avec Sapphire Rapids. SPR sera également mis à jour avec la dernière sécurité matérielle d’Intel.

Il est très attendu que Sapphire Rapids soit également le premier Xeon multi-calculateur d’Intel où le silicium est conçu pour être intégré (nous ne comptons pas les hybrides Cascade Lake-AP), et il y a des fuites non confirmées pour suggérer que c’est le cas, cependant rien qu’Intel n’a encore vérifié.

Le supercalculateur Aurora devrait être livré d’ici la fin de 2021 et devrait être le premier déploiement officiel de Sapphire Rapids. Nous prévoyons un lancement complet de la plate-forme au cours du premier semestre 2022, avec une disponibilité générale peu de temps après. Le lancement exact de SPR-HBM est inconnu, mais compte tenu de ces délais, le quatrième trimestre 2022 semble assez raisonnable en fonction de l’agressivité d’Intel voulant attaquer le lancement à la lumière de toute concurrence d’autres fournisseurs x86 ou d’Arm.

Lecture connexe