Aujourd’hui, Qualcomm révèle plus d’informations sur la puce et la plate-forme d’inférence «Cloud AI 100» annoncées l’année dernière. La nouvelle plate-forme d’inférence de la société serait déjà entrée en production, le premier silicium revenant avec succès et le premier échantillonnage des clients ayant commencé.

Le Cloud AI 100 est la première incursion de Qualcomm dans le secteur des accélérateurs d’inférence IA des datacenters, représentant les investissements de l’entreprise dans l’apprentissage automatique et tirant parti de leur expertise dans le domaine du monde des SoC mobiles grand public, et de les amener sur le marché des entreprises. Qualcomm avait révélé pour la première fois le Cloud AI 100 au début de l’année dernière, bien qu’il s’agisse certes plus d’un lancement sur papier que d’une divulgation de ce que le matériel apportait réellement à la table.

Aujourd’hui, avec du silicium réel dans le laboratoire, Qualcomm divulgue plus de détails sur l’architecture, les performances et les objectifs de puissance de la conception d’inférence.

En partant de haut niveau, Qualcomm nous présente les différents objectifs de performance que la puce Cloud AI 100 est censée atteindre dans ses différents déploiements de facteur de forme.

Qualcomm vise trois facteurs de forme différents en termes de commercialisation de la solution: une carte d’accélérateur de facteur de forme PCIe à part entière destinée à atteindre des performances d’inférence étonnantes de 400TOPs à 75W TDP, et deux DM.2 et DM. Cartes au facteur de forme 2e avec respectivement des TDP de 25W et 15W. Le facteur de forme DM2 s’apparente à deux connecteurs M.2 côte à côte et gagne en popularité sur le marché des entreprises, la conception DM.2e représentant un facteur de forme d’enveloppe thermique plus petit et plus faible.

Qualcomm explique que du point de vue de l’architecture, la conception suit les enseignements tirés des unités de traitement neuronal de l’entreprise qu’elle avait déployées dans le SoC mobile Snapdragon, mais qu’il s’agit toujours d’une architecture distincte qui a été conçue à partir de zéro, optimisée pour les charges de travail d’entreprise.

Le grand avantage d’une conception d’IA dédiée par rapport au matériel informatique général actuel tel que les processeurs ou même les FPGA ou les GPU est que le matériel dédié est capable d’atteindre à la fois des performances plus élevées et des objectifs d’efficacité énergétique beaucoup plus élevés qui sont autrement hors de portée. Plates-formes «traditionnelles».

En termes de performances, Qualcomm a présenté les chiffres d’inférence ResNet-50 par seconde par watt par rapport aux solutions industrielles les plus couramment déployées, notamment l’accélérateur d’inférence Goya d’Intel ou l’accélérateur T4 ciblé par inférence de Nvidia, basé sur une matrice de GPU TU104 réduite.

On dit que le Cloud AI 100 réalise des sauts significatifs en termes de performances / W par rapport à ses concurrents, même si nous devons noter que ce graphique mélange pas mal de facteurs de forme ainsi que des objectifs de puissance ainsi que des objectifs de performances absolues, n’étant pas une comparaison de pommes à pommes.

Qualcomm présente le dateur dans un autre graphique performance / puissance dans lequel nous voyons une comparaison relativement plus juste. L’affirmation la plus intéressante en matière de performances ici est que dans le format PCIe 75 W, la société affirme qu’elle est capable de battre même le dernier accélérateur 250 W A100 de Nvidia basé sur la dernière architecture Ampere. De même, il revendique le double des performances de l’accélérateur Goya à 25% de puissance en moins.

Ces revendications de performances sont assez incroyables, et cela peut s’expliquer par le fait que la charge de travail testée ici met l’architecture de Qualcomm sous le meilleur jour possible. Un peu plus de contexte peut être dérivé des divulgations de spécifications matérielles:

La puce se compose de 16 «AI Cores» ou AIC, atteignant collectivement jusqu’à 400 TOP de débit MAC d’inférence INT8. Le sous-système de mémoire de la puce est soutenu par 4 contrôleurs de mémoire LPDDR4X 64 bits fonctionnant à 2100 MHz (LPDDR4X-4200), chacun des contrôleurs exécutant 4x canaux 16 bits, ce qui équivaudrait à une bande passante système totale de 134 Go / s.

Pour ceux qui sont familiers avec les conceptions actuelles des accélérateurs d’intelligence artificielle, ce chiffre de bande passante semble extrêmement anémique lorsqu’il est mis en contexte par rapport aux capacités de conception concurrentes telles que celle de l’A100 ou de l’accélérateur Goya qui possède une mémoire HBM2 et des capacités de bande passante allant jusqu’à 1-1,6 To / s. . Ce que Qualcomm fait pour équilibrer cela est d’utiliser un énorme 144 Mo de cache SRAM sur puce pour conserver autant de trafic mémoire que possible sur la puce.

Qualcomm admet que l’architecture fonctionnera différemment sous des charges de travail dont les noyaux dépassent l’empreinte mémoire sur puce, mais il s’agissait d’un équilibre de conception délibéré que la société avait convenu de faire avec ses clients qui ont des besoins et des exigences spécifiques en matière de charges de travail cibles. Qualcomm prévoit que pour les noyaux plus volumineux, les charges de travail seront évolutives sur plusieurs accélérateurs Cloud AI 100.

Ainsi, bien que les performances de Qualcomm dans ces ResNet-50 spécifiques semblent fantastiques, elles pourraient ne pas brosser un tableau complet sur une plus large gamme de charges de travail. Lorsqu’on lui a demandé quand nous devrions nous attendre à un plus large éventail de résultats de référence tels que les soumissions MLPerf, l’équipe a déclaré qu’elle avait des sous-tests en cours d’exécution en interne, mais les ressources actuelles en génie logiciel à court terme sont axées sur la satisfaction des besoins des clients et l’optimisation de ces charges de travail. . Au fil du temps, nous verrons une assistance logicielle plus étendue et des chiffres de performances MLPerf éventuels.

Interrogée sur la manière dont l’entreprise atteint une plage dynamique aussi large (15W à 75W) en termes d’objectifs de puissance avec une seule conception en silicium, la société explique qu’elle ajuste les courbes fréquence / tension ainsi que la modulation du nombre d’IA actives. Noyaux dans la conception. Imaginez que la conception complète de 400 TOPS 75W contienne une puce pleinement fonctionnelle à des fréquences plus élevées, tandis que la conception 15W pourrait avoir des unités désactivées et fonctionnant à une fréquence plus basse. Le nœud de processus 7 nm aide également grandement à maintenir une faible consommation d’énergie.

L’interface PCIe prend en charge la dernière norme 4.0 avec 8 voies.

Du point de vue de la précision, l’architecture prend en charge INT8, INT16 ainsi que les précisions FP16 et FP32, ce qui devrait lui donner une grande flexibilité en termes de modèles pris en charge. Qualcomm fournit également un ensemble de SDK pour la prise en charge d’un ensemble d’exécutables, de formats d’échange et de frameworks standard.

Qualcomm échantillonne actuellement le Cloud AI 100 pour les clients dont les déploiements ciblés sont principalement des charges de travail d’inférence de périphérie dans l’industrie et le commerce. Afin de relancer l’écosystème et de permettre le développement de logiciels, Qualcomm présente également le nouveau kit de développement Cloud Edge AI 100 qui se compose d’un appareil informatique intégré à petit facteur de forme abritant l’accélérateur Cloud AI 100, un SoC système Snapdragon 865 et un Modem X55 5G pour la connectivité cellulaire.

Les expéditions commerciales aux clients sont attendues au premier semestre 2021.

Lecture connexe: