19 h 58 HE – Ancien architecte GPU Huawei
19 h 59 HAE – Développement début 2018
20 h 00 HAE – Beaucoup de business sur l’inférence
20 h 00 HAE – Réalisez une conception à haut débit, faible latence et haute efficacité énergétique
20 h 00 HAE – De nombreuses charges de travail Alibaba sont liées à la convolution
20 h 00 HAE – Optimisation pour GEMM également
20 h 00 HAE – Flexible pour prendre en charge les futures fonctions d’activation
20 h 01 HAE – 4 noyaux avec anneau bus
20 h 01 HAE – 192 Mo de mémoire locale, partagée distribuée, pas de DDR
20 h 01 HAE – Processeur de commande au-dessus des quatre cœurs
20 h 01 HAE – PCIe 4.0 x16
20h02 HAE – Chaque noyau a trois moteurs: Tensor, Pooling, Memory
20h02 HAE – C’est le débit du moteur tensoriel
20h02 HAE – réutilisation des données et opérations fusionnées
20h02 HAE – minimiser le mouvement des données
20 h 03 HAE – Utilisez une fenêtre coulissante pour minimiser l’accès
20 h 04 HAE – Convertissez les données en FP et abaissez le tuyau
20 h 04 HAE – sur scène EW2
20 h 05 HAE – support fp19
20 h 05 HAE – le moteur de mémoire peut ajuster la disposition des données
20 h 06 HAE – Prise en charge des modèles compressés pour les données rares
20 h 06 HAE – L’élagage est facultatif
20 h 06 HAE – Quantifié à INT16 / INT8
20 h 06 HAE – Unité vectorielle FP24
20h07 HAE – Tampon de chemin
20h08 HAE – Ceci est un flux de travail typique
20h09 HAE – La CPU hôte communique avec le CP
20h09 HAE – Jeu d’instructions spécifiques au domaine
20h09 HAE – opération fusion
20h09 HAE – semblable à l’ICCA
20 h 10 HAE – Synchronisation à 3 moteurs
20 h 10 HAE – deux synchronisations – au compilateur ou au matériel
20 h 11 HAE – Cartographie des tâches évolutive
20 h 12 HAE – Utilisez le commutateur PCIe pour le pipelining multi-puces
20 h 12 HAE – 825 TOP INT8 à 280W
20 h 12 HAE – 700 MHz
20 h 12 HAE – 709 mm2
20 h 12 HAE – TSMC 12 nm
20 h 12 HAE – Prise en charge de la plupart des principaux frameworks
20 h 13 HAE – Prise en charge de la quantification post-formation
20 h 15 HAE – Au lot 1, le débit de NPU surpasse V100 au lot 128
20 h 15 HAE – en utilisant Resnet50 v1
20 h 16 HAE – Performance et puissance évolutives
20 h 16 HAE – 25W à 280W
20 h 19 HAE – Cibler de nombreuses applications
20 h 21 HAE – ecs.ebman1.24xlarge US Cascade 104 cœurs avec 4×2 cœurs Hanguang 800
20 h 21 HAE – cloud public
20 h 23 HAE – Temps de questions et réponses
20 h 23 HAE – Q: Moteurs de recommandation – quelles autres cibles? R: Principalement la vision par ordinateur, après les optimisations, elle est également bien adaptée à la recommandation et à la recherche.
20 h 24 HAE – Q: Remplacement du T4? R: Oui
20 h 24 HAE – Q: Incorporer des tables dans la mémoire hôte? A: correct
20 h 25 HAE – Q: Prise en charge des charges de travail> 192 Mo? R: peut activer plusieurs puces et puce à puce via PCIe
20 h 25 HAE – Q: moteur Sparsity pour les poids et les activations? A: juste des poids
20 h 26 HAE – Q: Convolution non 2D comme Bert? R: Nous pouvons mapper sur notre puce et l’exécuter avec précision pour répondre aux exigences, mais les performances ne sont pas satisfaites. La taille est un problème, nous avons donc besoin de plusieurs puces qui ont une pénalité de performance
20 h 27 HAE – Q: Pourquoi comparer A100 et Goya à différents lots à NPU? R: Nous pouvons améliorer le débit par lots tout en maintenant une latence extrêmement faible
20 h 27 HAE – Tjat
20 h 28 HAE – C’est une enveloppe. Passons maintenant au dernier discours – la photonique sur silicium!
20 h 28 HAE -.