La croissance de l’IA a vu une résurgence du financement en capital-risque pour les start-up de silicium. La conception de silicium d’IA pour l’apprentissage automatique, à la fois pour la formation et l’inférence, est devenue une propriété incontournable dans la Silicon Valley, d’autant plus que les besoins de calcul et de mémoire d’apprentissage automatique sont fusionnés en objectifs tangibles pour ce silicium. Un certain nombre de ces entreprises expédient déjà des processeurs haute performance à leurs clients et recherchent des financements supplémentaires pour aider les clients, élargir la base de clients et développer des produits de nouvelle génération jusqu’à ce que la rentabilité se concrétise ou que l’entreprise soit acquise. Les deux derniers cycles de financement pour le silicium IA ont été annoncés la semaine dernière.

Groq (série C, 300 millions de dollars, processeur de streaming Tensor Q100)

Lorsque le premier produit de Groq est entré en scène, détaillé par le rapport sur le microprocesseur en janvier 2020, il a été décrit comme le premier processeur PetaOP qui a évité les conceptions traditionnelles à plusieurs cœurs et a implémenté à la place un seul cœur de type VLIW avec des centaines d’unités fonctionnelles. Dans cette méthode, les données sont soumises au flux d’instructions, plutôt que les instructions dépendent du flux de données, ce qui permet d’économiser du temps sur la synchronicité et de décoder la surcharge requise par les processeurs à plusieurs cœurs.

Le résultat final est un produit qui implémente 400 000 unités de multiplication-accumulation, mais la métrique clé du marketing est la performance déterministe. En utilisant cette méthodologie unique, le TSP Q100 de Groq prendra le même temps pour déduire la charge de travail sans aucune exigence de qualité de service. En parlant avec le PDG Jonathan Ross, le TSP de Groq permet des charges de travail qui étaient auparavant inutilisables en raison de la dégradation des performances de la qualité de service à longue traîne (c’est-à-dire que les résultats dans le pire des cas prennent trop de temps). Ceci est particulièrement important dans les analyses qui nécessitent une taille de lot 1, telle que la vidéo.

L’écosystème Groq signifie également que la distribution sur de nombreux TSP augmente simplement les inférences par seconde, avec plusieurs parties Q100 sous le même algorithme implémentant toutes les mêmes performances déterministes.

Jonathan nous a déclaré, comme la société l’a déclaré dans le passé, que Groq en tant qu’entreprise a été construite sur une approche axée sur le compilateur. Historiquement, ce type d’approche met beaucoup de pression sur le compilateur qui effectue l’optimisation (comme Itanium et d’autres processeurs VLIW), et conduit souvent à des préoccupations concernant le produit dans son ensemble. Cependant, on nous a dit que l’équipe n’avait jamais touché à la conception du silicium avant six mois après le début des travaux sur le logiciel et le compilateur, ce qui a permis à l’entreprise de verrouiller les aspects clés des principaux frameworks ML avant même de concevoir le silicium.

Dans le cadre de ses efforts de financement, Groq nous a contactés pour une mise à jour de l’entreprise. Tout le travail matériel et logiciel de Groq à ce jour a été réalisé grâce à deux tours de financement de capital-risque, totalisant 67,3 millions de dollars, dont environ 50 millions de dollars ont été utilisés jusqu’à présent. Dans cette capitale, ils ont conçu, construit et déployé le Q100 TSP chez près d’une douzaine de clients, y compris l’industrie audiovisuelle, les centres de données et les laboratoires gouvernementaux. Le produit de deuxième génération est également en bonne voie. Cette dernière ronde de financement de série C de 300 millions de dollars, dirigée par Tiger Global Management et D1 Capital, permettra à l’entreprise de passer de 120 personnes à 250 d’ici la fin de l’année, de soutenir les clients actuels et futurs avec des équipes plus importantes et de permettre une évolution progressive. feuille de route.

Groq a déclaré dans notre briefing que son produit de deuxième génération s’appuiera sur ses points de conception uniques, offrant des alternatives aux clients intéressés par Q100 mais ayant d’autres exigences pour leurs charges de travail. Chaque génération de TSP de Groq, selon la société, aura une demi-douzaine de points de vente uniques sur le marché (certains publics, d’autres non), avec un objectif au moins de déplacer autant de GPU que possible avec un seul TSP afin de donner clients le meilleur TCO.

SambaNova (Série D, 676 millions de dollars, Cardinal AI)

La deuxième société cette semaine est SambaNova, dont le financement de la série D s’élève à 676 millions de dollars, dirigé par SoftBank’s Vision Fund 2, avec de nouveaux investisseurs Temasek et GIC, rejoignant des bailleurs de fonds existants tels que BlackRock, Intel Capital, GV (anciennement Google Ventures) et d’autres. . À ce jour, SambaNova a généré plus de 1,1 milliard de dollars d’investissements, permettant une valorisation de 5 milliards de dollars.

L’entrée de SambaNova dans l’espace du silicium AI se fait avec son processeur Cardinal AI. Plutôt que de se concentrer sur les charges de travail d’inférence d’apprentissage automatique, comme essayer d’identifier des animaux avec un algorithme connu, le processeur Cardinal AI est l’une des rares implémentations dédiées à fournir des performances d’entraînement optimales. La formation est un problème nettement plus difficile que l’inférence, d’autant plus que les algorithmes de formation changent constamment et que les exigences pour les plus grands ensembles de données semblent en constante augmentation.

Le processeur Cardinal AI a déjà figuré sur AnandTech, lorsque SambaNova a annoncé sa solution à huit sockets connue sous le nom de «DataScale SN10-8R». Dans une conception quart de rack, un système EPYC Rome x86 est associé à huit processeurs Cardinal soutenus par 12 téraoctets de mémoire DDR4-3200, et SambaNova peut évoluer vers une solution demi-rack ou plein rack. Chaque processeur Cardinal AI dispose de 1,5 To de DDR4, avec six canaux de mémoire pour une bande passante de 153 Go / s par processeur. Dans chaque configuration à huit sockets, les puces sont connectées de manière tout-à-tout avec 64 voies PCIe 4.0 au silicium de réseau de commutation dédié (comme un NVSwitch) pour 128 Go / s dans chaque direction vers tous les autres processeurs. Le protocole utilisé sur PCIe est personnalisé pour SambaNova. Les commutateurs permettent également une connectivité de système à système qui permet à SambaNova de s’adapter selon les besoins. SambaNova indique qu’une solution à deux racks surpassera de 40% un déploiement équivalent DGX-A100 et sera à une puissance beaucoup plus faible, ou permettra aux entreprises de fusionner un déploiement de 16 racks 1024 V100 en un seul système DataScale quart de rack.

Les clients de SambaNova recherchent un mélange d’options de cloud privé et public, et par conséquent, l’offre phare est une ligne de produits Dataflow-as-a-Service permettant aux clients un modèle d’abonnement pour les initiatives d’IA sans acheter le matériel purement et simplement. Ces systèmes d’abonnement peuvent être déployés en interne dans l’entreprise avec l’abonnement et être gérés à distance par SambaNova. La société indique que les charges de travail TensorFlow ou PyTorch peuvent être reconstruites à l’aide du compilateur de SambaNova en moins d’une heure.

SambaNova n’a pas encore donné beaucoup plus de détails sur son architecture, mais ils indiquent que SambaNova peut permettre une formation à l’IA qui nécessite de grands ensembles de données d’image (images de 50000×50000 pixels, par exemple) pour l’astronomie, le pétrole et le gaz ou l’imagerie médicale souvent nécessitent une perte de résolution / précision pour les autres plates-formes. Le processeur Cardinal AI peut également effectuer une formation en boucle permettant la reclassification du modèle et l’optimisation des charges de travail d’inférence avec formation à la volée en activant une solution hétérogène de style zérocopie – les GPU doivent plutôt effectuer un vidage de la mémoire et / ou un commutateur de noyau, ce qui peut être une partie importante de toute analyse d’utilisation.

L’entreprise a maintenant traversé quatre cycles de financement:

  • Série A, 56 millions de dollars, dirigée par Walden International et Google Ventures
  • Série B, 150 millions de dollars, dirigée par Intel Capital
  • Série C, 250 millions de dollars, dirigée par BlackRock
  • Série D, 676 millions de dollars, dirigée par SoftBank

Cela place SambaNova presque au sommet du financement des puces AI avec 1132 millions de dollars, juste derrière Horizon Robotics (1600 millions de dollars), mais devant GraphCore (460 millions de dollars), Groq (367 millions de dollars), Nuvia (293 millions de dollars, acquis par Qualcomm), Cambricon (200 millions de dollars) et Cerebras (112 millions de dollars).

Lecture connexe