Les utilisateurs qui suivent l’espace du silicium AI auront entendu parler de SambaNova – une entreprise silencieuse qui a fait très peu de bruit mais qui a accumulé un soutien sérieux. Après trois cycles de financement, menés par Google Ventures, Intel Capital et Blackrock, et des déploiements semi-hushhush au département américain de l’énergie à Laurence Livermore et Los Alamos, il existe désormais une nouvelle offre de produits pour les clients limités. SambaNova gagne déjà de l’argent, et la société est enfin prête à casser la croûte sur sa très délicate crème brûlée et à commencer à parler de ses nouveaux systèmes DataScale SN10-8R (nom accrocheur), construits avec son nouveau processeur Cardinal AI.

AI Silicon: un récapitulatif

La plupart des charges de travail d’intelligence artificielle ou d’apprentissage automatique se divisent en deux catégories: la formation et l’inférence.

Le premier est la formation, où un algorithme est alimenté en données, ou un modèle compétitif joue à des jeux, dans le but de créer le meilleur algorithme possible à partir de millions, de milliards ou de billions de paramètres. Il s’agit d’une informatique de grande envergure et nécessite un matériel robuste (le GPT3 de Google a nécessité environ 12 millions de dollars de temps de calcul dans le cloud) qui évolue bien.

La seconde est l’inférence, où un modèle déjà entraîné (connu sous le nom de pré-entraîné) reçoit de nouvelles données et doit répondre en conséquence. Il s’agit en revanche d’une charge de travail légère qui ne nécessite que la fonction mathématique du modèle, où des points de repère tels que la latence (temps de réponse), la bande passante (inférences par seconde), la précision (est-ce correct) et la puissance (inférences par watt) sont important. Le matériel axé sur l’inférence existe aujourd’hui dans l’IoT et les smartphones.

L’idée est donc de former un modèle à identifier un chat en lui montrant 100 millions d’images de chats et de chiens et de pandas et de renards pour les distinguer tous. Une inférence montre à ce modèle entraîné une nouvelle image d’un chat et obtient le résultat correct.

La formation et l’inférence peuvent être effectuées sur des processeurs de calcul réguliers, sur du matériel graphique haute performance ou, comme nous le voyons de plus en plus dans ce secteur, des solutions d’IA dédiées pour l’un, l’autre ou les deux. Les entreprises de cet espace ont tendance à se concentrer sur l’un ou l’autre – la formation a besoin de gros silicium avec beaucoup de mémoire souvent dans les centres de données, alors que l’inférence peut être faite dans des facteurs de forme très petits et des fonctionnalités de style IoT.

La plupart du matériel de formation est également capable d’inférer, mais en raison de la puissance, il a tendance à fonctionner sur «  l’inférence en masse dans le cloud  », comme l’analyse de l’ensemble complet de textes humains jamais écrits, ou du catalogue arrière de photographies d’un média social, plutôt que sur l’immédiat. reconnaissance faciale dans une vitrine à des fins de vente.

SambaNova et sa nouvelle puce Cardinal AI

La plupart des entreprises de silicium d’IA se concentrent sur l’inférence, et il y en a environ 50 milliards (peut-être une légère exagération, peut-être pas). Il est beaucoup plus complexe de développer du silicium pour la formation, car cela nécessite de gros silicium pour faire du gros travail, et il n’y a donc que quelques entreprises. Il y a d’autres difficultés notables à trouver également des clients appropriés – il est inutile de dépenser des millions s’il n’y a que deux entreprises qui achèteraient ce que vous créez. En conséquence, la plupart des paris sur la formation à l’IA s’évanouissent rapidement ou l’argent grossit. Au cours des dernières années, la plupart des grandes entreprises de formation en IA ont attiré beaucoup de fonds d’investisseurs, tandis que d’autres ont été acquises. SambaNova s’inscrit dans cette première catégorie, avec quelque 450 millions de dollars de financement en capital-risque pour sa nouvelle puce Cardinal AI.

La puce Cardinal AI est grande, monolithique et basée sur le processus N7 de TSMC. À 40 milliards de transistors, il mesure dans l’espace de 708 mm2, ce qui est presque proche de la limite du réticule, comme un certain nombre d’autres processeurs d’entraînement à l’IA haute performance. La puce de SambaNova est un ensemble d’unités reconfigurables pour les données, le stockage ou la commutation, optimisées pour le flux de données (ils l’appellent une unité de flux de données reconfigurable, ou RDU), pour couvrir une grande variété d’exigences de bande passante, de stockage et de calcul qui proviennent d’un large éventail d’exigences en matière de charge de travail de formation. L’objectif est que si une charge de travail a besoin de plus de mémoire, le silicium peut s’adapter, presque comme un FPGA / ASIC structuré, mais dans ce cas avec beaucoup plus de performances et d’efficacité.

L’un des problèmes avec les charges de travail d’entraînement est la bande passante de la mémoire et la possibilité d’obtenir des données d’entraînement du stockage vers le silicium de calcul. C’est pourquoi un certain nombre de concepteurs de matériel de formation à l’IA mettent en œuvre une mémoire à bande passante élevée, des techniques d’emballage innovantes ou de solides topologies de communication puce à puce. SambaNova ne va pas trop de détails sur la puce pour le moment, mais a noté certains domaines clés en ce qui concerne la solution qu’ils fournissent. Les plus importants sont la capacité de mémoire par Cardinal et la bande passante d’interconnexion entre le silicium Cardinal voisin.

SambaNova ne vendra pas une seule puce à elle seule, mais tout comme d’autres start-ups vendra une solution à installer dans un centre de données. L’unité de base de l’offre de SambaNova sera une conception de quart de rack (9U?) Appelée DataScale SN10-8R, avec un hôte AMD EPYC Rome x86 associé à huit puces Cardinal et 12 téraoctets (oui c’est exact) de mémoire DDR4-3200, ou 1,5 To par cardinal. SambaNova fera évoluer ses offres en fonction du nombre de quarts de racks requis par un client, avec des spécifications par défaut de 1/4 de rack (8 RDU), 1/2 rack (16 RDU et 1 rack (32 RDU). spécifique.

Chaque puce Cardinal dispose de six contrôleurs de mémoire DDR4 pour la mémoire, permettant une bande passante mémoire de 153 Go / s. Les huit puces sont connectées dans une configuration tout-à-tout, activée via un réseau de commutation (comme un NVSwitch). On nous a dit que chaque puce avait 64 voies PCIe 4.0 vers ce réseau (activées via quatre complexes racine x16), ce qui offre 128 Go / s dans chaque direction à un commutateur, mais le protocole utilisé sur PCIe est personnalisé pour SambaNova.

Les commutateurs permettent également la connectivité de système à système, où SambaNova peut permettre une évolution vers plusieurs déploiements quart de rack. Chaque quart de rack sera livré avec un ensemble par défaut de fonctionnalités de gestion et de mise en réseau intégrées qui, si le client le souhaite, peuvent être gérées à distance par SambaNova. Lorsqu’on lui a demandé à quel niveau ces systèmes peuvent évoluer, SambaNova a déclaré qu’il y avait une limite théorique, mais essayer de quantifier ce qui n’est finalement pas pratique – ils citent que deux racks complets, ou huit systèmes SN10-8R (également 64 puces) peuvent surpassent de 40% le déploiement équivalent du DGX-A100 de NVIDIA en termes de performances à faible puissance.

Du côté logiciel de l’équation, SambaNova possède son propre optimiseur et compilateur de graphes, permettant aux clients utilisant actuellement PyTorch ou TensorFlow de recompiler leurs charges de travail pour le matériel en moins d’une heure (citant l’un des déploiements clients de SambaNova). Le chef de produit chez SambaNova, Marshall Choy, a déclaré dans notre exposé que la facilité d’utilisation est l’un des principaux piliers de la gamme de produits DataScale de SambaNova. Selon Marshall, il est important pour l’entreprise que les clients souhaitent accéder au matériel et se rendre dans les plus brefs délais, et c’est ce que le produit offre.

Les quatre attributs clés que Marshall a connus pour l’entreprise sont (dans l’ordre) les performances, la précision, l’échelle et la facilité d’utilisation. Un certain nombre de témoignages de clients mis en évidence dans le cadre de cette nouvelle annonce de produit mettent en évidence ces attributs du nouveau matériel, même avec une installation pendant les périodes COVID et une gestion à distance à 100%.

Même si aujourd’hui est l’annonce du produit et que la société sort du mode semi-furtif, SambaNova expédie déjà des systèmes pour générer des revenus et a duré jusqu’en 2020. Ce produit de première génération cible également quatre cibles de clients principales, principalement en raison de la fait que ce sont les charges de travail de formation que les clients actuels de SambaNova exécutent. Ces domaines de produits sont:

  • Transformateurs (langage naturel, analyse visuelle)
  • Vision par ordinateur haute résolution (images 4K à 50K, telles que la cartographie stellaire)
  • Systèmes de recommandation (vente au détail en ligne, détection des fraudes bancaires)
  • AI pour la science

Dans le cadre de l’annonce du produit aujourd’hui, SambaNova se compare favorablement à certains des matériels les plus courants disponibles sur le marché pour ces segments, principalement contre NVIDIA. SambaNova déclare qu’ils fonctionnent mieux et à une puissance inférieure à l’offre de NVIDIA. SambaNova souligne également que sa puce est conçue pour effectuer un entraînement en boucle, permettant la reclassification et l’optimisation des modèles à la volée pendant les charges de travail d’inférence avec formation sans nécessiter de vidage de la mémoire et de commutateur de noyau et offrant simplement une solution hétérogène de style zérocopie. – par comparaison, d’autres matériels doivent se reconfigurer pour faire l’un ou l’autre.

Pour les benchmarks qui pourraient signifier quelque chose sur le marché plus large, nous avons posé des questions sur MLPerf. On nous a dit que même si SambaNova est l’une des premières entreprises impliquées dans le projet MLPerf (en particulier les fondateurs de SN), ils se concentrent actuellement sur le déploiement pour les clients et la satisfaction de leurs besoins, plutôt que sur la mesure de comparaison générale du secteur. Cela ne veut pas dire qu’ils sont apparemment opposés à MLPerf, et ils y arriveront à un moment donné.

SambaFlow

À ne pas confondre avec une boisson énergisante populaire dans le jeu, SambaFlow est l’emballage logiciel à utiliser avec le SN10-8R. La chaîne d’outils prend les entrées de TensorFlow, PyTorch ou de graphiques personnalisés, et effectue une analyse de graphique pour convertir ce qui est nécessaire en termes de calcul d’apprentissage automatique ou autre calcul personnalisé. Cela inclut l’analyse du carrelage, et selon le site Web de SambaNova, le carrelage peut être automatisé. L’analyse est ensuite soumise au compilateur de SambaNova afin d’optimiser l’architecture du flux de données, ainsi que de prendre en compte les emplacements physiques des données, avant d’être transmise en tant que moteur d’exécution.

Selon la société, les éléments clés de l’approche de SambaNova sont de surpasser les limites des GPU pour ce type de charge de travail. Parmi les revendications, citons la prise en charge de 100 milliards de paramètres dans un modèle d’entraînement, ainsi qu’une plus grande empreinte mémoire permettant des tailles de lots plus importantes, un parallélisme de modèle et une utilisation matérielle, et une plus grande précision.

Cela se traduit également par une consommation d’énergie plus faible et (on pourrait supposer) un meilleur TCO.

SambaNova

L’entreprise elle-même a été fondée en septembre 2017 et a des racines d’anciens architectes Sun Oracle. Les trois fondateurs ont tous une expérience dans la création de solutions silicium:

  • PDG Rodrigo Liang, Sun / Oracle Processor Development of SPARC and ASICs
  • CTO Prof. Kunle Olukotun, Sun / Oracle, responsable du projet de recherche Hydra Chip CMP de Stanford
  • Le professeur Chris Ré, Stanford AI Lab et InfoLab, a vendu deux sociétés de gestion de données à Apple

L’entreprise a connu trois cycles de financement:

  • Série A, 56 millions de dollars, dirigée par Walden International et Google Ventures
  • Série B, 150 millions de dollars, dirigée par Intel Capital
  • Série C, 250 millions de dollars, dirigée par BlackRock

Cela place SambaNova au sommet du financement des puces IA avec 456 millions de dollars, dépassé uniquement par GraphCore (460 millions de dollars) et Horizon Robotics (700 millions de dollars), et suivi de près par Nuvia (293 millions de dollars), Cambricon (200 millions de dollars) et Cerebras (120 dollars) m).

SambaNova emploie environ 150 employés, basés à Palo Alto. Cette puce de première génération a été enregistrée au printemps 2019, les premiers échantillons de silicium A0 étant mis sous tension dans l’heure suivant l’arrivée. L’entreprise utilisait des modèles clients dans le mois. Depuis lors, SambaNova vend déjà à certains clients depuis plus d’un an avant ce point – les seuls publics sont du ministère de l’Énergie de Lawrence Livermore et Los Alamos. Nous avons précisé que les autres clients ne sont pas des investisseurs, mais des entreprises de premier plan qui voient la nécessité d’être à la pointe avec quelque chose de nouveau. Les clients sont répartis sur plusieurs segments, principalement impliqués dans les quatre segments énumérés ci-dessus.

SambaNova a promis plus d’annonces concernant son portefeuille de produits au fil du temps. Cette annonce coïncide avec la conférence NeurIPS (Neural Information Processing Systems) et, historiquement, la société a également assisté à des événements de type HPC. Au fur et à mesure que de plus amples détails seront disponibles, nous avons demandé à être notifiés.

Deux autres petites annonces

En plus du nouveau produit SN10-8R, SambaNova est sur le point de proposer deux options de service de type cloud: une pour les universités et la recherche, et une pour les clients.

Le premier pour les universités est la plate-forme SambaNova AI (SNAP), qui est un cloud de développement gratuit pour les instituts de recherche disposant d’un accès informatique au matériel. L’accès est accordé sur la base d’un processus de demande de projet – les détails exacts doivent être confirmés.

Le second est destiné aux clients professionnels qui souhaitent bénéficier de la flexibilité du cloud sans payer pour le matériel. DataFlow as a Service (DFaaS, si vous voulez) permettra aux clients de «louer» un système et de le placer dans un pare-feu d’entreprise, mais avec un accès de type cloud. La gestion et les mises à jour seront effectuées à distance par SambaNova, comme s’il s’agissait d’une véritable offre cloud, mais avec cet aspect de sécurité d’avoir le matériel en interne. Il s’agira d’une offre d’abonnement, axée principalement sur les clients du langage naturel, des moteurs de recommandation et de la vision par ordinateur haute résolution.

Source: SambaNova

Lecture connexe