19 h 29 HAE – La dernière session de Hot Chips est consacrée à l’inférence ML. À commencer par Baidu et son processeur Kunlun AI
19h30 HAE – Nous avons entendu parler du Kunlun de Baidu il y a quelques mois en raison d’un communiqué de presse de la société et de Samsung indiquant que le silicium utilisait un emballage Interposer-Cube 2.5D, ainsi que HBM2, et emballait 260 TOP dans 150 W.
19 h 32 HAE – Baidu et Samsung construisent la puce ensemble
19 h 33 HAE – Besoin d’un processeur pour couvrir un flux de travail d’IA diversifié
19 h 33 HAE – NLP = traitement du langage neuronal
19 h 33 HAE – Tous ces systèmes sont prioritaires à l’intérieur de Baidu
19 h 34 HAE – Le calcul traditionnel de l’IA est effectué dans le cloud, le centre de données, le HPC, l’industrie intelligente, la ville intelligente
19 h 35 HAE – Les puces IA haut de gamme coûtent cher à créer
19 h 36 HAE – Essayez d’explorer le plus possible le volume du marché
19 h 36 HAE – Le défi est le type de calcul
19 h 36 HAE – Conception et réalisation
19 h 38 HAE – Kunlun (Kun-loon)
19 h 38 HAE – Besoin flexible, programmable et performant
19 h 38 HAE – Déplacé de FPGA vers ASIC
19 h 39 HAE – 256 TOP en 2019
19 h 42 HAE – (le présentateur est un peu lent fyi)
19 h 43 HAE – Maintenant quelques détails
19 h 43 HAE – Samsung Foundry 14 nm
19 h 43 HAE – Pack Interposer, 2 HBM, 512 Go / s
19 h 43 HAE – PCIe 4.0 x8
19 h 43 HAE – 150W / 256 TOP
19 h 43 HAE – Carte PCIe
19 h 44 HAE – 256TOPs pour INT8
19 h 44 HAE – 16 Go HBM
19 h 44 HAE – Refroidissement passif
19 h 45 HAE – Même disposition que XPUv1 montrée dans HotChips 2017
19 h 45 HAE – Cluster XPU
19 h 45 HAE – Moteur de réseau neuronal défini par logiciel
19 h 45 HAE – XPU-SDNN
19 h 46 HAE – XPU-SDNN fait tenseur et vecteur
19 h 46 HAE – XPU-Cluster fait scalaire et vectoriel
19 h 46 HAE – Chaque cluster a 16 petits cœurs
19 h 46 HAE – chaque unité dispose de 16 Mo de mémoire sur puce
19 h 47 HAE – (quels sont les minuscules noyaux?)
19 h 47 HAE – Compilateur de graphes
19 h 47 HAE – prend en charge PaddlePaddle, Tensorflow, pytorch
19 h 48 HAE – XPU C / C ++ pour les noyaux personnalisés
19 h 48 HAE – 256 TOP pour l’inférence 4096x4096x4096 GEMM INT8
19 h 51 HE – Ces benchmarks sont très étranges
19 h 51 HE – grand bord = industriel
19 h 51 HE – Inspection du masque
19 h 52 HE – Masque RCNN
19 h 52 HE – Disponible dans Baidu Cloud
19 h 53 HE – Temps de questions et réponses
19 h 54 HE – Q: décodage image / vidéo matériel? R: non
19 h 55 HAE – Q: débit INT4 comme INT8? R: INT4 identique à INT8, mais INT4 et exploite davantage de capacités
19 h 56 HE – Q: Taille et BW de la mémoire partagée sur puce? R: BW est de 512 Go / s pour chaque port de chaque cluster (je ne pense pas que cela réponde aux questions)
19 h 56 HE – Q: Planification statique des ressources? R: Oui
19 h 57 HE – Q: Puissance? A: puissance réelle 70-90W, presque identique à T4, mais TDP 150W
19 h 57 HE – C’est une enveloppe. Le prochain discours est Alibaba NPU