19 h 58 HE – Ancien architecte GPU Huawei

19 h 59 HAE – Développement début 2018

20 h 00 HAE – Beaucoup de business sur l’inférence

20 h 00 HAE – Réalisez une conception à haut débit, faible latence et haute efficacité énergétique

20 h 00 HAE – De nombreuses charges de travail Alibaba sont liées à la convolution

20 h 00 HAE – Optimisation pour GEMM également

20 h 00 HAE – Flexible pour prendre en charge les futures fonctions d’activation

20 h 01 HAE – 4 noyaux avec anneau bus

20 h 01 HAE – 192 Mo de mémoire locale, partagée distribuée, pas de DDR

20 h 01 HAE – Processeur de commande au-dessus des quatre cœurs

20 h 01 HAE – PCIe 4.0 x16

20h02 HAE – Chaque noyau a trois moteurs: Tensor, Pooling, Memory

20h02 HAE – C’est le débit du moteur tensoriel

20h02 HAE – réutilisation des données et opérations fusionnées

20h02 HAE – minimiser le mouvement des données

20 h 03 HAE – Utilisez une fenêtre coulissante pour minimiser l’accès

20 h 04 HAE – Convertissez les données en FP et abaissez le tuyau

20 h 04 HAE – sur scène EW2

20 h 05 HAE – support fp19

20 h 05 HAE – le moteur de mémoire peut ajuster la disposition des données

20 h 06 HAE – Prise en charge des modèles compressés pour les données rares

20 h 06 HAE – L’élagage est facultatif

20 h 06 HAE – Quantifié à INT16 / INT8

20 h 06 HAE – Unité vectorielle FP24

20h07 HAE – Tampon de chemin

20h08 HAE – Ceci est un flux de travail typique

20h09 HAE – La CPU hôte communique avec le CP

20h09 HAE – Jeu d’instructions spécifiques au domaine

20h09 HAE – opération fusion

20h09 HAE – semblable à l’ICCA

20 h 10 HAE – Synchronisation à 3 moteurs

20 h 10 HAE – deux synchronisations – au compilateur ou au matériel

20 h 11 HAE – Cartographie des tâches évolutive

20 h 12 HAE – Utilisez le commutateur PCIe pour le pipelining multi-puces

20 h 12 HAE – 825 TOP INT8 à 280W

20 h 12 HAE – 700 MHz

20 h 12 HAE – 709 mm2

20 h 12 HAE – TSMC 12 nm

20 h 12 HAE – Prise en charge de la plupart des principaux frameworks

20 h 13 HAE – Prise en charge de la quantification post-formation

20 h 15 HAE – Au lot 1, le débit de NPU surpasse V100 au lot 128

20 h 15 HAE – en utilisant Resnet50 v1

20 h 16 HAE – Performance et puissance évolutives

20 h 16 HAE – 25W à 280W

20 h 19 HAE – Cibler de nombreuses applications

20 h 21 HAE – ecs.ebman1.24xlarge US Cascade 104 cœurs avec 4×2 cœurs Hanguang 800

20 h 21 HAE – cloud public

20 h 23 HAE – Temps de questions et réponses

20 h 23 HAE – Q: Moteurs de recommandation – quelles autres cibles? R: Principalement la vision par ordinateur, après les optimisations, elle est également bien adaptée à la recommandation et à la recherche.

20 h 24 HAE – Q: Remplacement du T4? R: Oui

20 h 24 HAE – Q: Incorporer des tables dans la mémoire hôte? A: correct

20 h 25 HAE – Q: Prise en charge des charges de travail> 192 Mo? R: peut activer plusieurs puces et puce à puce via PCIe

20 h 25 HAE – Q: moteur Sparsity pour les poids et les activations? A: juste des poids

20 h 26 HAE – Q: Convolution non 2D comme Bert? R: Nous pouvons mapper sur notre puce et l’exécuter avec précision pour répondre aux exigences, mais les performances ne sont pas satisfaites. La taille est un problème, nous avons donc besoin de plusieurs puces qui ont une pénalité de performance

20 h 27 HAE – Q: Pourquoi comparer A100 et Goya à différents lots à NPU? R: Nous pouvons améliorer le débit par lots tout en maintenant une latence extrêmement faible

20 h 27 HAE – Tjat

20 h 28 HAE – C’est une enveloppe. Passons maintenant au dernier discours – la photonique sur silicium!

20 h 28 HAE -.