19 h 29 HAE – La dernière session de Hot Chips est consacrée à l’inférence ML. À commencer par Baidu et son processeur Kunlun AI

19h30 HAE – Nous avons entendu parler du Kunlun de Baidu il y a quelques mois en raison d’un communiqué de presse de la société et de Samsung indiquant que le silicium utilisait un emballage Interposer-Cube 2.5D, ainsi que HBM2, et emballait 260 TOP dans 150 W.

19 h 32 HAE – Baidu et Samsung construisent la puce ensemble

19 h 33 HAE – Besoin d’un processeur pour couvrir un flux de travail d’IA diversifié

19 h 33 HAE – NLP = traitement du langage neuronal

19 h 33 HAE – Tous ces systèmes sont prioritaires à l’intérieur de Baidu

19 h 34 HAE – Le calcul traditionnel de l’IA est effectué dans le cloud, le centre de données, le HPC, l’industrie intelligente, la ville intelligente

19 h 35 HAE – Les puces IA haut de gamme coûtent cher à créer

19 h 36 HAE – Essayez d’explorer le plus possible le volume du marché

19 h 36 HAE – Le défi est le type de calcul

19 h 36 HAE – Conception et réalisation

19 h 38 HAE – Kunlun (Kun-loon)

19 h 38 HAE – Besoin flexible, programmable et performant

19 h 38 HAE – Déplacé de FPGA vers ASIC

19 h 39 HAE – 256 TOP en 2019

19 h 42 HAE – (le présentateur est un peu lent fyi)

19 h 43 HAE – Maintenant quelques détails

19 h 43 HAE – Samsung Foundry 14 nm

19 h 43 HAE – Pack Interposer, 2 HBM, 512 Go / s

19 h 43 HAE – PCIe 4.0 x8

19 h 43 HAE – 150W / 256 TOP

19 h 43 HAE – Carte PCIe

19 h 44 HAE – 256TOPs pour INT8

19 h 44 HAE – 16 Go HBM

19 h 44 HAE – Refroidissement passif

19 h 45 HAE – Même disposition que XPUv1 montrée dans HotChips 2017

19 h 45 HAE – Cluster XPU

19 h 45 HAE – Moteur de réseau neuronal défini par logiciel

19 h 45 HAE – XPU-SDNN

19 h 46 HAE – XPU-SDNN fait tenseur et vecteur

19 h 46 HAE – XPU-Cluster fait scalaire et vectoriel

19 h 46 HAE – Chaque cluster a 16 petits cœurs

19 h 46 HAE – chaque unité dispose de 16 Mo de mémoire sur puce

19 h 47 HAE – (quels sont les minuscules noyaux?)

19 h 47 HAE – Compilateur de graphes

19 h 47 HAE – prend en charge PaddlePaddle, Tensorflow, pytorch

19 h 48 HAE – XPU C / C ++ pour les noyaux personnalisés

19 h 48 HAE – 256 TOP pour l’inférence 4096x4096x4096 GEMM INT8

19 h 51 HE – Ces benchmarks sont très étranges

19 h 51 HE – grand bord = industriel

19 h 51 HE – Inspection du masque

19 h 52 HE – Masque RCNN

19 h 52 HE – Disponible dans Baidu Cloud

19 h 53 HE – Temps de questions et réponses

19 h 54 HE – Q: décodage image / vidéo matériel? R: non

19 h 55 HAE – Q: débit INT4 comme INT8? R: INT4 identique à INT8, mais INT4 et exploite davantage de capacités

19 h 56 HE – Q: Taille et BW de la mémoire partagée sur puce? R: BW est de 512 Go / s pour chaque port de chaque cluster (je ne pense pas que cela réponde aux questions)

19 h 56 HE – Q: Planification statique des ressources? R: Oui

19 h 57 HE – Q: Puissance? A: puissance réelle 70-90W, presque identique à T4, mais TDP 150W

19 h 57 HE – C’est une enveloppe. Le prochain discours est Alibaba NPU