Il y a eu un fort désir pour une série de benchmarks de machine learning standard de l’industrie, similaires aux benchmarks SPEC pour les processeurs, afin de comparer les solutions relatives. Au cours des deux dernières années, MLCommons, un consortium d’ingénierie ouvert, a discuté et divulgué ses références MLPerf pour la formation et l’inférence, les principaux membres du consortium publiant des chiffres de référence au fur et à mesure que la série de tests s’affinait. Aujourd’hui, nous assistons au lancement complet de MLPerf Inference v1.0, avec ~ 2000 résultats dans la base de données. Parallèlement à ce lancement, une nouvelle technique de mesure de puissance MLPerf pour fournir des métadonnées supplémentaires sur ces résultats de test est également divulguée.

Les résultats d’aujourd’hui sont tous axés sur l’inférence – la capacité d’un réseau formé à traiter les données entrantes invisibles. Les tests sont construits autour d’un certain nombre de domaines et de modèles d’apprentissage automatique qui tentent de représenter le marché plus large du ML, de la même manière que SPEC2017 tente de capturer les charges de travail courantes du processeur. Pour l’inférence MLPerf, cela comprend:

  • Classification d’image sur Resnet50-v1.5
  • Détection d’objets avec SSD-ResNet34
  • Segmentation d’image médicale avec 3D UNET
  • Speech-to-text avec RNNT
  • Traitement du langage avec BERT
  • Moteurs de recommandation avec DLRM

Les résultats peuvent être soumis dans un certain nombre de catégories, telles que Datacenter, Edge, Mobile ou Tiny. Pour Datacenter ou Edge, ils peuvent également être soumis dans la catégorie «fermé» (pommes à pommes avec les mêmes cadres de référence) ou dans la catégorie «ouvert» (tout est permis, optimisation de pointe). Les métriques soumises dépendent d’un flux unique, d’un flux multiple, d’une réponse du serveur ou d’un flux de données hors ligne. Pour ceux qui suivent la progression de MLPerf, le jeu de référence est le même que la v0.7, sauf avec l’exigence maintenant que toute la DRAM doit être ECC et l’état d’équilibre est mesuré avec un minimum de 10 minutes d’exécution. Les résultats d’exécution doivent être déclarés pour les types de données utilisés (int8, fp16, bf16, fp32). Les benchmarks sont conçus pour fonctionner sur CPU, GPU, FPGA ou silicium AI dédié.


Qualcomm A100

Les entreprises qui ont soumis les résultats à MLPerf jusqu’à présent sont un mélange de fournisseurs, de partenaires OEM et de membres MLCommons, tels qu’Alibaba, Dell, Gigabyte, HPE, Inspur, Intel, Lenovo, NVIDIA, Qualcomm, Supermicro et Xilinx. La plupart de ces acteurs ont de gros systèmes multi-sockets et des conceptions multi-GPU en fonction du marché qu’ils visent à promouvoir avec les résultats. Par exemple, Qualcomm a un résultat système dans la catégorie des centres de données utilisant deux EPYC et 5 de ses cartes Cloud AI 100, mais il a également soumis des données à la catégorie Edge avec un kit de développement IA comprenant un Snapdragon 865 et une version de son Cloud AI Matériel.


Cloud AI 100 de Qualcomm

Le plus grand émetteur de ce lancement, Krai, a développé une suite de tests automatisés pour MLPerf Inference v1.0 et a exécuté la suite de référence sur un certain nombre de périphériques de périphérie à faible coût tels que le Raspberry Pi, le Jetson de NVIDIA et le matériel RockChip, le tout avec et sans accélération GPU. En conséquence, Krai fournit plus de la moitié de tous les résultats (plus de 1000) dans la tranche de données d’aujourd’hui. Comparez cela à Centaur, qui a fourni une poignée de points de données pour son prochain coprocesseur CHA AI.

Étant donné que tous les systèmes ne doivent pas exécuter tous les tests, il n’ya pas de numéro de référence combiné à fournir. Mais en prenant l’un des points de données, nous pouvons voir l’ampleur des résultats soumis jusqu’à présent.

Sur ResNet50, avec une précision de 99%, exécutant un ensemble de données hors ligne:

  • La plate-forme Cloud Sinian d’Alibaba (deux Xeon 8269CY + 8x A100) a obtenu 1 077 800 échantillons par seconde en INT8
  • Le Raspberry Pi 4 de Krai (1x Cortex A72) a obtenu 1,99 échantillon par seconde en INT8

Évidemment, certains matériels feraient mieux avec le traitement du langage ou la détection d’objets, et tous les points de données peuvent être vus sur les pages de résultats de MLCommon.

Puissance d’inférence MLPerf

Un nouvel angle pour la v1.0 est les métadonnées de mesure de puissance. En partenariat avec SPEC, MLPerf a adopté l’interface de mesure de puissance SPEC PTDaemon, standard de l’industrie, en tant que module complémentaire de données en option pour toute soumission. Il s’agit de mesures au niveau du système, plutôt que simplement au niveau de la puce, ce qui signifie que les contrôleurs supplémentaires, le stockage, la mémoire, la fourniture d’énergie et les efficacités qu’ils contiennent comptent tous pour la mesure des données soumises.

MLPerf fournit l’exemple d’un serveur Gigabyte avec 5 cartes Qualcomm Cloud AI 100 d’une moyenne de 598 W lors d’un test hors ligne pour 1777,9 requêtes par seconde. Les soumissionnaires sont autorisés à fournir des données de puissance supplémentaires dans les détails de la soumission, tels que la puissance du processeur, mais seule la puissance au niveau du système fera partie du processus de soumission officiel.

Environ 800 des points de données soumis dans la liste d’aujourd’hui sont fournis avec des données d’alimentation. Encore une fois, la plupart d’entre eux de Krai.

Les résultats complets peuvent être trouvés sur le site Web de MLCommons.

Lecture connexe