L’un des projets de silicium AI les plus intéressants au cours des deux dernières années a été le moteur Cerebras Wafer Scale Engine, notamment en raison du fait qu’une seule puce a la taille d’une plaquette littérale. Cerebras emballe la puce WSE1 dans un serveur personnalisé refroidi par liquide de 15U, appelé CS-1, avec un certain nombre d’innovations en matière d’emballage, d’alimentation et de configuration. Un seul CS-1 nécessite environ 20 kW de crête de puissance et coûte environ quelques millions de dollars (le Pittsburgh Supercomputing Center en a acheté deux l’an dernier sur la base d’une subvention de recherche de 5 millions de dollars). Cerebras affirme avoir des clients à deux chiffres et plusieurs dizaines d’unités déjà sur le terrain, mais marque aujourd’hui une étape considérable car le département américain de l’énergie en a maintenant déployé et opérationnel, directement relié à un supercalculateur.

Il est assez facile de s’émerveiller de la conception de Cerebras, qui implique un certain nombre d’innovations et de brevets concernant la connectivité cross-réticule, et les 400000 cœurs AI dans le processeur sont conçus pour résister aux défauts de fabrication en offrant des cœurs de rechange tout au long de la conception qui peuvent être utilisé en place. Cela donne à chaque tranche un très bon rendement – chaque puce de la ligne de production est utilisable. Cerebras est un fournisseur de solutions, pas seulement un concepteur de puces, et par conséquent, il vend WSE1 dans une unité montable en rack 15U autonome. Le but de la conception CS-1 est qu’il peut s’intégrer dans n’importe quel centre de données standard, vous branchez l’alimentation et le réseau, et c’est parti.

Du côté logiciel, Cerebras dispose de son propre compilateur de graphes pour sa puce, qui accepte les réseaux d’IA basés sur TensorFlow et pyTorch, puis les configure de la manière la plus optimale autour de la puce massive. Cette année, à Hot Chips, la société est entrée dans les détails sur le fonctionnement de la programmation à l’échelle de la tranche, avec le compilateur équilibrant les ressources de calcul et les ressources sur puce pour utiliser les meilleurs compromis zone / performance pour toute fonction ou noyau d’IA donné. Chaque noyau peut être divisé en modèle parallèle ou parallèle aux données afin de générer le modèle de communication optimal, maximisant les performances et finalement l’utilisation sur puce. Les utilisateurs peuvent également optimiser manuellement les noyaux si nécessaire. Le compilateur de graphes est également conçu pour rendre le travail efficace des réseaux clairsemés, en particulier avec une puce aussi grande et 18 Go de SRAM embarquée ainsi qu’une disposition MIMD complète.

La nouvelle aujourd’hui est cependant que Cerebras annonce une installation CS-1 très importante. Ce n’est peut-être qu’une seule unité, mais le Lawrence Livermore National Laboratory (LLNL), financé par la National Nuclear Security Administration du Département américain de l’énergie, a acheté une unité CS-1 et l’a boulonnée sur son 23 supercalculateur PetaFLOP «Lassen». Le supercalculateur Lassen est un superordinateur Power9 + Volta + Infiniband à 684 nœuds, évalué à environ 23 PetaFLOP et se trouve actuellement à la 14e place de la liste TOP500.

L’objectif de l’ajout d’un CS-1 à Lassen est d’aider à accélérer et à décharger la recherche ciblée d’IA et l’assistance à la modélisation. Lassen est principalement utilisé pour les simulations nucléaires, la science des matériaux, la conception de médicaments et l’analyse médicale. Ces projets impliquent souvent des espaces de recherche d’analyse computationnelle plus longs que l’univers, et ces projets commencent à utiliser la formation et l’inférence en IA pour aider à réduire les espaces de recherche et optimiser là où le calcul est nécessaire, réduisant ainsi le gaspillage de calcul et minimisant les erreurs. Ce sera l’un des objectifs du CS-1 attaché à Lassen, à la fois pour la formation de ces modèles d’espaces de recherche et leur application à plus grande échelle par inférence. Ce sera la première fois que LLNL ajoute du matériel spécifique à l’IA à son répertoire de calcul, et le terme utilisé pour attacher l’accélération de l’IA au calcul HPC est appelé Simulation cognitive, ou CogSim en abrégé.

«Nous avons besoin de nouvelles réponses pour améliorer notre capacité à répondre aux exigences de notre mission et à répondre à des exigences informatiques toujours croissantes. La simulation cognitive est une approche qui, selon nous, pourrait conduire à des améliorations exponentielles continues des capacités, et une approche hétérogène au niveau du système basée sur de nouvelles architectures telles que le Cerebras CS-1 est un élément important de la réalisation de ces améliorations. a déclaré Bronis R. de Supinski, directeur de la technologie chez Livermore Computing, qui a dirigé l’effort d’approvisionnement du CS-1.

En discutant avec Cerebras, nous avons eu un aperçu du fonctionnement de l’achat de l’un de ces systèmes. Des discussions initiales au déploiement en passant par l’utilisation active par les chercheurs, il a fallu moins de 60 jours. L’activation du CS-1 via un gestionnaire de charge de travail ne représentait guère plus qu’une seule ligne de Slurm, et les utilisateurs se voient allouer du temps de calcul sur le CS-1 via une file d’attente de multiplexage temporel. Actuellement, le CS-1 ne peut pas prendre en charge plusieurs utilisateurs simultanément, ce qui, selon Cerebras, était l’un des compromis pour mettre le WSE1 sur le marché dans les délais impartis. Les itérations futures sont susceptibles d’atteindre cet objectif.

Dans le cadre de la vente, Cerebras et LLNL s’engagent dans un nouveau centre d’excellence en IA (AICoE) afin de développer et de construire les paramètres optimaux pour accélérer ce type de simulation cognitive dans le flux de travail du laboratoire. Selon les résultats, selon le communiqué de presse, cela pourrait conduire à l’attachement de systèmes Cerebras supplémentaires à Lassen à l’avenir. Il pourrait s’agir de CS-1, ou potentiellement du nouveau WSE2 que Cerebras a taquiné à la fin de sa conférence Hot Chips 2020.

Source: LLNL, Cerebras

Lecture connexe