Ces dernières années, une surabondance de processeurs a été lancée sur le marché dans le seul but d’accélérer les charges de travail liées à l’intelligence artificielle et au machine learning. En raison des différents types d’algorithmes d’apprentissage automatique possibles, ces processeurs sont souvent concentrés sur quelques domaines clés, mais une chose les limite tous: la taille du processeur. Il y a deux ans, Cerebras a dévoilé une révolution dans la conception du silicium: un processeur aussi gros que votre tête, utilisant autant de surface sur une tranche de 12 pouces qu’un design rectangulaire le permettrait, construit sur 16 nm, axé à la fois sur les charges de travail IA et HPC. Aujourd’hui, la société lance son produit de deuxième génération, basé sur TSMC 7nm, avec plus du double des cœurs et plus du double de tout.

Moteur à échelle de tranche de deuxième génération

Le nouveau processeur de Cerebras s’appuie sur le premier en passant au processus N7 de TSMC. Cela permet à la logique de diminuer, ainsi que dans une certaine mesure aux SRAM, et maintenant la nouvelle puce a 850000 cœurs AI à bord. Fondamentalement, presque tout ce qui concerne la nouvelle puce est supérieur à 2x:

Échelle de gaufrettes Cerebras
AnandTech Échelle de gaufrette
Moteur Gen1
Échelle de gaufrette
Moteur Gen2
Augmenter
Cœurs AI 400 000 850 000 2,13x
Fabrication TSMC 16 nm TSMC 7 nm
Date de lancement Août 2019 T3 2021
Taille de la matrice 46225 millimètre2 46225 millimètre2
Transistors 1200 milliards 2600 milliards 2,17x
(Densité) 25,96 mTr / mm2 56,246 mTr / mm2 2,17x
SRAM embarqué 18 Go 40 Go 2,22x
Bande passante mémoire 9 Po / s 20 Po / s 2,22x
Bande passante de tissu 100 Pb / s 220 Pb / s 2,22x
Coût 2 millions de dollars et plus bras + jambe

Comme avec le processeur d’origine, connu sous le nom de Wafer Scale Engine (WSE-1), le nouveau WSE-2 comprend des centaines de milliers de cœurs AI sur un énorme 46225 mm2 de silicium. Dans cet espace, Cerebras a activé 2,6 billions de transistors pour 850000 cœurs – en comparaison, le deuxième plus grand processeur AI du marché mesure ~ 826 mm2, avec 0,054 billion de transistors. Cerebras cite également 1000 fois plus de mémoire embarquée, avec 40 Go de SRAM, contre 40 Mo sur l’Ampère A100.


Moi avec Wafer Scale Gen1 – ressemble le même, mais avec moins de la moitié des cœurs.

Les cœurs sont connectés avec un maillage 2D avec des chemins de données FMAC. Cerebras atteint un rendement de 100% en concevant un système dans lequel tout défaut de fabrication peut être contourné – initialement, Cerebras avait 1,5% de cœurs supplémentaires pour tenir compte des défauts, mais on nous a depuis dit que c’était beaucoup trop car le processus de TSMC est si mature. L’objectif de Cerebras avec WSE est de fournir une plate-forme unique, conçue grâce à des brevets innovants, qui autorise l’utilisation de processeurs plus volumineux utiles dans les calculs de l’IA, mais qui a également été étendue à un plus large éventail de charges de travail HPC.

S’appuyant sur le WSE de première génération

Une clé de la conception est le compilateur de graphiques personnalisé, qui prend pyTorch ou TensorFlow et mappe chaque couche à une partie physique de la puce, permettant un calcul asynchrone au fur et à mesure que les données circulent. Avoir un processeur aussi volumineux signifie que les données n’ont jamais à sortir et à attendre en mémoire, gaspillant de l’énergie, et peuvent continuellement être déplacées vers l’étape suivante du calcul en pipeline. Le compilateur et le processeur sont également conçus dans un esprit de parcimonie, permettant une utilisation élevée quelle que soit la taille du lot, ou peuvent permettre à des algorithmes de recherche de paramètres de s’exécuter simultanément.

Pour la première génération de Cerebras, WSE est vendu sous la forme d’un système complet appelé CS-1, et la société compte plusieurs dizaines de clients avec des systèmes déployés et opérationnels, y compris un certain nombre de laboratoires de recherche, de sociétés pharmaceutiques, de recherche biotechnologique, militaire et pétrolière. industries du gaz. Lawrence Livermore a un CS-1 jumelé à son 23 supercalculateur PFLOP «Lassen». Le Pittsburgh Supercomputer Center a acheté deux systèmes avec une subvention de 5 millions de dollars, et ces systèmes sont attachés à leur supercalculateur Neocortex, permettant une IA simultanée et un calcul amélioré.

Produits et partenariats

Cerebras vend aujourd’hui des systèmes CS-1 complets sous la forme d’un boîtier 15U contenant un WSE-1 avec 12×100 GbE, douze blocs d’alimentation de 4 kW (6 redondants, puissance de crête d’environ 23 kW) et les déploiements dans certaines institutions sont jumelés au SuperDome Flex de HPE . Le nouveau système CS-2 partage cette même configuration, mais avec plus du double des cœurs et le double de la mémoire embarquée, mais toujours avec la même puissance. Par rapport à d’autres plates-formes, ces processeurs sont disposés verticalement à l’intérieur de la conception 15U afin de permettre une facilité d’accès ainsi qu’un refroidissement liquide intégré à travers un processeur aussi grand. Il convient également de noter que ces portes avant sont usinées à partir d’une seule pièce d’aluminium.

Le caractère unique de la conception de Cerebras est de pouvoir aller au-delà des limites de fabrication physiques normalement présentées lors de la fabrication, connues sous le nom de limite de réticule. Les processeurs sont conçus avec cette limite comme la taille maximale d’une puce, car la connexion de deux zones avec une connexion réticule croisée est difficile. Cela fait partie de la sauce secrète que Cerebras apporte à la table, et la société reste la seule à proposer un processeur à cette échelle – les mêmes brevets que Cerebras a développés et ont obtenu pour construire ces grosses puces sont toujours en jeu ici, et le Le WSE de deuxième génération sera intégré aux systèmes CS-2 avec une conception similaire à CS-1 en termes de connectivité et de visuels.

Le même compilateur et les mêmes packages logiciels avec mises à jour permettent à tout client qui a testé des charges de travail d’IA avec le premier système d’utiliser le second au moment où il en déploie une. Cerebras a travaillé sur des implémentations de plus haut niveau pour permettre aux clients dotés de modèles TensorFlow et PyTorch standardisés d’assimiler très rapidement leur code GPU existant en ajoutant trois lignes de code et en utilisant le compilateur de graphes de Cerebras. Le compilateur divise ensuite les 850 000 cœurs entiers en segments de chaque couche qui permettent un flux de données en pipeline sans blocage. Le silicium peut également être utilisé pour plusieurs réseaux simultanément pour la recherche de paramètres.

Cerebras déclare qu’avec une telle solution à puce unique, cela signifie que la barrière aux méthodes d’entraînement distribuées sur des centaines de puces AI est maintenant tellement plus éloignée que cette complication excessive n’est pas nécessaire dans la plupart des scénarios – pour cela, nous voyons CS- 1 déploiements de systèmes uniques connectés à des supercalculateurs. Cependant, Cerebras tient à souligner que deux systèmes CS-2 fourniront 1,7 million de cœurs AI dans un rack 42U standard, ou trois systèmes pour 2,55 millions dans un rack 46U plus grand (en supposant qu’il y ait suffisamment de puissance pour tous à la fois!), Remplaçant une douzaine de racks de matériel informatique alternatif. Lors de Hot Chips 2020, l’architecte en chef du matériel, Sean Lie, a déclaré que l’un des principaux avantages de Cerebras pour les clients était la possibilité de permettre une simplification de la charge de travail qui nécessitait auparavant des racks de GPU / TPU, mais peut à la place fonctionner sur un seul WSE d’une manière pertinente en termes de calcul.

En tant qu’entreprise, Cerebras compte environ 300 employés à Toronto, San Diego, Tokyo et San Francisco. Le PDG Andrew Feldman me dit qu’en tant qu’entreprise, ils sont déjà rentables, avec des dizaines de clients déjà avec CS-1 déployé et un certain nombre d’autres testant déjà CS-2 à distance alors qu’ils mettent en place les systèmes commerciaux. Au-delà de l’IA, Cerebras suscite beaucoup d’intérêt de la part des marchés commerciaux typiques du calcul haute performance, tels que le pétrole et le gaz et la génomique, en raison de la flexibilité de la puce qui permet la dynamique des fluides et d’autres simulations de calcul. Les déploiements de CS-2 auront lieu plus tard cette année au troisième trimestre, et le prix est passé d’environ 2 à 3 millions de dollars à «plusieurs» millions.


Avec Godzilla pour une référence de taille

Lecture connexe