18 h 03 HAE – Cerebras a fait l’échelle de la tranche – une seule puce de la taille d’une tranche

18 h 03 HAE – Voici WSE1

18 h 04 HAE – Utilise des outils standards comme TensorFlow et pyTorch avec le compilateur Cerebras

18 h 04 HAE – CS-1 s’adapte dans un rack standard 15U

18 h 04 HAE – 400k cœurs

18 h 04 HAE – (Coûte quelques millions de dollars chacun)

18 h 05 HAE – Pas de DRAM, SRAM complète sur puce

18 h 05 HAE – Réseau maillé 3D

18 h 06 HAE – Permet à tous les cœurs 400k de travailler sur le même problème

18 h 06 HAE – Mise à l’échelle linéaire des performances

18 h 07 HAE – Compilateur de graphes Cerebras

18 h 07 HAE – extraire le graphe de calcul, créer un graphe au format WSE, router les noyaux sur le fabric, puis créer un exécutable

18h09 HAE – Correspondance graphique pour les boucles de multiplication de matrice

18h09 HAE – Prend en charge les noyaux optimisés à la main

18 h 10 HAE – Optimisation parallèle au modèle et parallèle aux données avec le compilateur

18 h 11 HAE – Compromis entre les ressources et le calcul pour chaque noyau

18 h 12 HAE – Tous les noyaux peuvent être redimensionnés selon les besoins

18 h 12 HAE – Tous fonctionnellement identiques

18 h 13 HAE – Fonction d’optimisation globale pour maximiser le débit et l’utilisation

18 h 14 HAE – 3 avantages clés

18 h 15 HAE – Parallélisme flexible

18 h 16 HAE – Assez de performances Fabric pour tout connecter à grande échelle

18 h 16 HAE – Sinon, lent sur les GPU ou un cluster

18 h 16 HAE – La petite taille de lot a une utilisation très élevée

18 h 16 HAE – pas de surcharge de synchronisation de poids

18 h 19 HAE – Le noyau est conçu pour la parcimonie

18 h 20 HAE – Récolte de parcimonie intrinsèque

18 h 20 HAE – filtre tous les zéros

18 h 23 HAE – L’utilisateur ML a un contrôle total sur une gamme complète de techniques rares

18 h 23 HAE – WSE est MIMD, chaque noyau peut être indépendant

18 h 24 HAE – Véritable prise en charge de la longueur de séquence variable

18 h 24 HAE – Aucun rembourrage requis

18 h 24 HAE – Utilisation plus élevée pour les modèles irréguliers

18 h 25 HAE – Réseaux de profondeur dynamiques

18 h 26 HAE – il suffit de traiter des longueurs exactes de séquences

18 h 26 HAE – L’ordinateur IA le plus puissant du monde

18 h 27 HAE – Flexibilité totale grâce à la taille du moteur de balance de tranche

18 h 28 HAE – Travailler dans le laboratoire aujourd’hui

18 h 29 HAE – Plus d’informations plus tard cette année

18 h 29 HAE – Équipe Q&A

18 h 29 HAE – temps*

18 h 31 HAE – Q: Quel est le principal avantage de WSE? R: Contourner les problèmes avec les charges de travail qui nécessitent plusieurs GPU / TPU / DPU. Ouvre de nouvelles techniques qui ne fonctionneraient pas sur du matériel traditionnel à n’importe quel sens de la vitesse

18 h 32 HAE – Q: Comment nourrir la bête? R: Le serveur traditionnel peut être le GPU / TPU, le suivant est donc IO. Nous sommes une société de système, notre produit est le système complet, car nous contrôlons tous les aspects du système. Nous avons une interconnexion Ethernet de 1,2 Tb / s pour alimenter le moteur pour suivre le calcul

18 h 34 HAE – Q: Combien de temps faut-il pour compiler un modèle de plus de 400 000 unités? R: C’est un problème d’espace de recherche algorithmiquement complexe. Le recuit et l’heuristique réduisent cela – nous empruntons de nombreuses idées à l’industrie de l’EDA. Notre problème est plus simple que des milliards de LE sur FPGA, nous en sommes donc à quelques minutes.

18 h 34 HAE – C’est une enveloppe. La prochaine discussion est la puce 4096 RISC-V