AnandTech Live Blog : Les dernières mises à jour sont en haut. Cette page se mettra à jour automatiquement, il n’est pas nécessaire d’actualiser manuellement votre navigateur.
15h00 HAE – Q : La synchronisation est mésochrone mais maillage statique – supposons des délais de synchronisation dans le pire des cas, ou autre chose ? R : Se comporte comme s’il était synchrone. En pratique, les horloges et les données se poursuivent. Disposition en arête de poisson de l’échange pour le rendre simple
14h58 HAE – Questions et réponses
14 h 56 HAE – Plus de SRAM sur puce signifie moins de bande passante DRAM nécessaire
14h55 HAE – La bande passante DDR hors puce suffit pour diffuser les états de poids pour les grands modèles
14 h 54 HAE – Pas de surcharge avec DDR
14 h 54 HAE – Le vendeur ajoute de la marge avec CoWoS
14 h 54 HAE – Ajout du coût de CoWoS
14 h 54 HAE – 40 Go HBM triple le coût d’un processeur
14h53 HAE – HBM a un problème de coût – IPU permet la DRAM
14h53 HAE – DDR pour la capacité du modèle
14h53 HAE – Ne pas utiliser HBM – sur die SRAM, DRAM à faible bande passante
14h52 HAE – IPU plus efficace en TFLOP/Watt
14h52 HAE – l’énergie arithmétique domine
14h52 HAE – 60/30/10 dans le camembert
14 h 51 HAE – pJ/flop
14 h 51 HAE – Puce de puissance
14h50 HAE – Dérive à 3 cycles sur la puce
14h50 HAE – Échange de colonne vertébrale
14h50 HAE – Le compilateur équilibre la charge des processeurs
14h49 HAE – 60% cycles en calcul, 30% en échange, 10% en synchro. Dépend de l’algorithme
14h49 HAE – Trace pour programme
14h48 HAE – Évitez les données FP32 avec arrondi stochastique. Aide à minimiser l’arrondi et la consommation d’énergie
14h48 HAE – à pleine vitesse
14h48 HAE – peut arrondir à l’inférieur de manière stochastique
14h48 HAE – Chaque tuile peut générer 128 bits aléatoires par cycle
14 h 47 HAE – Le TPU repose trop sur de grandes matrices pour des performances élevées
14 h 46 HAE – FP16 et FP32 MatMul et convolutions
14 h 46 HAE – Accès SRAM côté données de 47 To/s
14h45 HAE – Horloge mondiale à 1,325 GHz*
14h45 HAE – Viser l’équilibrage de charge
14h44 HAE – 6 threads d’exécution, lancez les threads de travail pour faire le gros du travail
14h44 HAE – Instructions 32 bits, émission simple ou double
14h43 HAE – 823 mm2, TSMC N7
14h43 HAE – Horloge mondiale 25 GHz
14h43 HAE – 24 tuiles, 23 sont utilisées pour donner de la redondance
14h43 HAE – La moitié du dé est mémoire
14 h 41 HAE – Peut utiliser Pytorch, tensorflow, ONNX, mais sa propre pile logicielle Poplar est préférable
14 h 41 HAE – 800-1200 W typique, 1500 W crête
14 h 41 HAE – E/S hors châssis de 1,2 Tb/s
14h40 HAE – Hôte proxy léger
14h40 HAE – 4 IPU dans un 1U
14h39 HAE – 896 Mio de SRAM sur N7
14 h 38 HAE – dans un réticule
14 h 38 HAE – Cette puce contient plus de transistors que toute autre puce N7 de TSMC
14 h 38 HAE – ‘record pour de vrais transistors sur une puce’
14 h 38 HAE – clôtures de fil pour la communication
14 h 37 HAE – calcul parallèle synchrone en masse
14 h 37 HAE – Abstraction matérielle – tuiles avec processeurs et mémoire avec une interconnexion IO
14 h 37 HAE – Le programme de contrôle peut contrôler le calcul du graphique de la meilleure façon pour s’exécuter sur du matériel spécialisé
14h36 HAE – Création de matériel pour résoudre des graphes
14h36 HAE – La mise à l’échelle classique est terminée
14h35 HAE – Adopter les données graphiques via l’IA
14h34 HAE – ‘Pourquoi avons-nous besoin de nouveau silicium pour l’IA’
14h34 HAE – Nouveau type structurel de processeur – l’IPU
14h34 HAE – Conçu pour l’IA
14h33 HAE – La première intervention est le co-fondateur, CTO, Graphcore, Simon Knowles. Colosse MK2
14h32 HAE – ‘ML n’est pas le seul jeu en ville’
14h30 HAE – L’ami d’AT, David Kanter, préside cette session
14h30 HAE – Commencez ici dans quelques minutes
14h28 HAE – Bienvenue sur Hot Chips ! Il s’agit de la conférence annuelle consacrée aux derniers, meilleurs et à venir gros silicium qui nous passionne tous. Restez à l’écoute le lundi et le mardi pour nos blogs réguliers AnandTech Live.