17 h 36 HAE – Aucune information TPUv4 dans cette discussion, juste pour info. Google parle souvent de ces puces bien après le déploiement
17 h 36 HAE – Voici l’histoire
17 h 36 HAE – TPUv1 en 2015 pour inférence
17 h 36 HAE – TPUv2 pour la formation en 2017
17 h 37 HAE – La formation ML présente des défis uniques
17 h 37 HAE – type de calcul, quantité de calcul
17 h 37 HAE – L’entraînement est exaflop ou zettaflop, tandis que l’inférence est de 1 GOP
17 h 37 HAE – La formation est sensible
17 h 37 HAE – La formation est une expérimentation – des cibles mobiles
17 h 38 HAE – Augmenter ou augmenter
17 h 38 HAE – L’inférence peut être mise à l’échelle
17 h 38 HAE – La formation est plus difficile à étendre
17 h 38 HAE – Goulot d’étranglement par des chemins de données hors puce
17 h 38 HAE – Contrainte de temps vs dotation en personnel
17 h 38 HAE – Soyez ambitieux sur un budget
17 h 39 HAE – Les objectifs clés d’abord, tous les objectifs doivent être « ok » ou « assez bons »
17 h 39 HAE – Voici TPU1
17 h 39 HAE – Le cycle central est l’endroit où le calcul se produit
17 h 39 HAE – TPUv2 apporte des modifications
17 h 40 HAE – Rendez-le plus axé sur les vecteurs
17 h 40 HAE – Amélioration de la mémoire
17 h 40 HAE – tissu d’interconnexion
17 h 41 HE – Voici comment cela s’intègre dans TPUv2
17 h 41 HE – Plusieurs cœurs
17 h 41 HE – préférez moins de cœurs – un problème de big data et un seul flux d’instructions facilitent la programmation
17 h 41 HE – VLIW
17 h 42 HE – Ensemble VLIW 322 bits
17 h 42 HE – Pas d’i-cache, mémoire de paquet d’instructions avec DMA
17 h 42 HE – le garder assez bon et old school
17 h 43 HE – double émission ALU
17 h 43 HE – 128 instances de ces voies
17 h 43 HE – 8 ensembles de vecteurs de 128 larges par cycle
17 h 43 HE – connectivité en unités matricielles
17 h 44 HE – matrice systolique 128×128
17 h 44 HE – BF16 multiplier
17 h 44 HE – Pas le plus gros aspect de la zone de puce cependant
17 h 44 HE – les économies de matériel sont des économies d’argent
17 h 45 HAE – Pourquoi 128×128?
17 h 45 HAE – sweetspot pour une utilisation sans consacrer plus d’espace au câblage
17 h 46 HAE – Mémoires du bloc-notes SRAM, logiciel visible
17 h 46 HAE – HBM intégré
17 h 46 HAE – DMA asynchrones
17 h 46 HAE – HBM stocke les vecteurs et les matrices – avance sur les vecteurs
17 h 46 HAE – 700 Go / s par puce grâce à HBM
17 h 47 HAE – Routeur d’interconnexion
17 h 47 HAE – Plus facile de construire le système de mémoire de cette façon
17 h 47 HAE – Le TPU doit être suffisamment flexible
17 h 47 HAE – tore 2D
17 h 48 HAE – DMA dans une autre mémoire
17 h 48 HAE – Maintenant TPUv3
17 h 49 HAE – 2x unités mul mat
17 h 49 HAE – Horloge 700 à 940 MHz
17 h 49 HAE – HBM + 30%
17 h 49 HAE – 2x HBM
17 h 49 HAE – Interconnexion 650 Go / s
17 h 49 HAE – Prend en charge 4x nœuds par interconnexion
17 h 49 HAE – Systèmes v3 à 1024 puces
17 h 50 HAE – Optimisations du compilateur XLA
17 h 52 HE – Stockage sur le réseau du centre de données
17 h 53 HE -> 100 PF dans le pod TPUv3
17 h 54 HE – Mise à l’échelle quasi idéale sur certaines charges de travail
17 h 54 HE – Amélioration des performances TPUv3
17 h 56 HAE – Peut également faire des inférences
17 h 58 HE – Temps de questions et réponses
17 h 58 HE – Q: TPUv4 sur GCP? R: Je n’ai pas de feuille de route. Interne uniquement pour l’instant.
17 h 59 HAE – Q: Comment gérez-vous 100 Go de tables d’intégration? R: Partitionné sur les puces. Nous utilisons le réseau ICI rapide pour communiquer entre les puces
17 h 59 HAE – Q: Existe-t-il des fonctionnalités au niveau de la puce pour aider MLP? R: Ces modèles sont complexes à modéliser. Nous utilisons diverses techniques.
18 h 00 HAE – Q: Un compromis entre le tore 2D et le commutateur basé sur? R: Les deux sont valides. L’un des plus grands avantages avec nous est que nous n’avons pas eu à construire un commutateur ou à gérer ces choses. La mise à l’échelle vers de grands systèmes et nos modèles de trafic réseau fonctionnent avec torus?
18 h 01 HAE – * torus.
18 h 01 HAE – Q: Protocole sur l’interconnexion? A: personnalisé mais super rapide
18 h 02 HE – Q: Compte tenu des avantages de chaque génération de TPU, faites-vous un compromis sur le marché et les fonctionnalités? R: Notre plus grande contrainte! Je dois faire du bon travail. Nous priorisons. Il est important de ne pas aller trop loin, mais il faut aller suffisamment loin. Nous avons des équipes qui travaillent là-dessus. Le champ change également rapidement, donc nous TTM rapidement.
18 h 02 HE – Fin de la discussion, le prochain est Cerebras Wafer Scale!