17 h 36 HAE – Aucune information TPUv4 dans cette discussion, juste pour info. Google parle souvent de ces puces bien après le déploiement

17 h 36 HAE – Voici l’histoire

17 h 36 HAE – TPUv1 en 2015 pour inférence

17 h 36 HAE – TPUv2 pour la formation en 2017

17 h 37 HAE – La formation ML présente des défis uniques

17 h 37 HAE – type de calcul, quantité de calcul

17 h 37 HAE – L’entraînement est exaflop ou zettaflop, tandis que l’inférence est de 1 GOP

17 h 37 HAE – La formation est sensible

17 h 37 HAE – La formation est une expérimentation – des cibles mobiles

17 h 38 HAE – Augmenter ou augmenter

17 h 38 HAE – L’inférence peut être mise à l’échelle

17 h 38 HAE – La formation est plus difficile à étendre

17 h 38 HAE – Goulot d’étranglement par des chemins de données hors puce

17 h 38 HAE – Contrainte de temps vs dotation en personnel

17 h 38 HAE – Soyez ambitieux sur un budget

17 h 39 HAE – Les objectifs clés d’abord, tous les objectifs doivent être «  ok  » ou «  assez bons  »

17 h 39 HAE – Voici TPU1

17 h 39 HAE – Le cycle central est l’endroit où le calcul se produit

17 h 39 HAE – TPUv2 apporte des modifications

17 h 40 HAE – Rendez-le plus axé sur les vecteurs

17 h 40 HAE – Amélioration de la mémoire

17 h 40 HAE – tissu d’interconnexion

17 h 41 HE – Voici comment cela s’intègre dans TPUv2

17 h 41 HE – Plusieurs cœurs

17 h 41 HE – préférez moins de cœurs – un problème de big data et un seul flux d’instructions facilitent la programmation

17 h 41 HE – VLIW

17 h 42 HE – Ensemble VLIW 322 bits

17 h 42 HE – Pas d’i-cache, mémoire de paquet d’instructions avec DMA

17 h 42 HE – le garder assez bon et old school

17 h 43 HE – double émission ALU

17 h 43 HE – 128 instances de ces voies

17 h 43 HE – 8 ensembles de vecteurs de 128 larges par cycle

17 h 43 HE – connectivité en unités matricielles

17 h 44 HE – matrice systolique 128×128

17 h 44 HE – BF16 multiplier

17 h 44 HE – Pas le plus gros aspect de la zone de puce cependant

17 h 44 HE – les économies de matériel sont des économies d’argent

17 h 45 HAE – Pourquoi 128×128?

17 h 45 HAE – sweetspot pour une utilisation sans consacrer plus d’espace au câblage

17 h 46 HAE – Mémoires du bloc-notes SRAM, logiciel visible

17 h 46 HAE – HBM intégré

17 h 46 HAE – DMA asynchrones

17 h 46 HAE – HBM stocke les vecteurs et les matrices – avance sur les vecteurs

17 h 46 HAE – 700 Go / s par puce grâce à HBM

17 h 47 HAE – Routeur d’interconnexion

17 h 47 HAE – Plus facile de construire le système de mémoire de cette façon

17 h 47 HAE – Le TPU doit être suffisamment flexible

17 h 47 HAE – tore 2D

17 h 48 HAE – DMA dans une autre mémoire

17 h 48 HAE – Maintenant TPUv3

17 h 49 HAE – 2x unités mul mat

17 h 49 HAE – Horloge 700 à 940 MHz

17 h 49 HAE – HBM + 30%

17 h 49 HAE – 2x HBM

17 h 49 HAE – Interconnexion 650 Go / s

17 h 49 HAE – Prend en charge 4x nœuds par interconnexion

17 h 49 HAE – Systèmes v3 à 1024 puces

17 h 50 HAE – Optimisations du compilateur XLA

17 h 52 HE – Stockage sur le réseau du centre de données

17 h 53 HE -> 100 PF dans le pod TPUv3

17 h 54 HE – Mise à l’échelle quasi idéale sur certaines charges de travail

17 h 54 HE – Amélioration des performances TPUv3

17 h 56 HAE – Peut également faire des inférences

17 h 58 HE – Temps de questions et réponses

17 h 58 HE – Q: TPUv4 sur GCP? R: Je n’ai pas de feuille de route. Interne uniquement pour l’instant.

17 h 59 HAE – Q: Comment gérez-vous 100 Go de tables d’intégration? R: Partitionné sur les puces. Nous utilisons le réseau ICI rapide pour communiquer entre les puces

17 h 59 HAE – Q: Existe-t-il des fonctionnalités au niveau de la puce pour aider MLP? R: Ces modèles sont complexes à modéliser. Nous utilisons diverses techniques.

18 h 00 HAE – Q: Un compromis entre le tore 2D et le commutateur basé sur? R: Les deux sont valides. L’un des plus grands avantages avec nous est que nous n’avons pas eu à construire un commutateur ou à gérer ces choses. La mise à l’échelle vers de grands systèmes et nos modèles de trafic réseau fonctionnent avec torus?

18 h 01 HAE – * torus.

18 h 01 HAE – Q: Protocole sur l’interconnexion? A: personnalisé mais super rapide

18 h 02 HE – Q: Compte tenu des avantages de chaque génération de TPU, faites-vous un compromis sur le marché et les fonctionnalités? R: Notre plus grande contrainte! Je dois faire du bon travail. Nous priorisons. Il est important de ne pas aller trop loin, mais il faut aller suffisamment loin. Nous avons des équipes qui travaillent là-dessus. Le champ change également rapidement, donc nous TTM rapidement.

18 h 02 HE – Fin de la discussion, le prochain est Cerebras Wafer Scale!