Alors qu’une grande partie du succès de NVIDIA dans les serveurs au cours de la dernière décennie est bien sûr venue de leurs GPU compétents, en tant qu’entreprise, NVIDIA est aujourd’hui bien plus qu’un concepteur de GPU sans usine. Avec plus d’ingénieurs en logiciel que d’ingénieurs en matériel, ce sont les logiciels et l’écosystème qui ont vraiment consolidé la position de NVIDIA en tant que premier fabricant de GPU et créé un marché plus large pour leurs GPU. Dans le même temps, ce sont ces jeux de l’écosystème qui ont permis à NVIDIA de construire une machine d’impression à but lucratif, en se diversifiant au-delà des ventes de GPU et en passant aux systèmes, aux logiciels, au support et à d’autres avenues.

À cette fin, NVIDIA déploie officiellement ce matin un nouvel écosystème destiné aux serveurs de deep learning haut de gamme, que la société nomme les systèmes certifiés NVIDIA. Lancée en douceur à l’automne, la société donne aujourd’hui au programme une introduction plus appropriée, détaillant le programme et annonçant certains des partenaires. Dans le cadre du plan NVIDIA, les clients à l’avenir peuvent choisir d’acheter des systèmes certifiés NVIDIA s’ils souhaitent une garantie supplémentaire sur les performances et la fiabilité du système, ainsi que d’opter pour l’achat de contrats de support pour avoir accès au support technique direct et complet de NVIDIA.

Conceptuellement, le programme de certification est plutôt simple, en grande partie en raison de ses exigences matérielles. Les systèmes doivent d’abord utiliser les accélérateurs A100 de NVIDIA, ainsi que les adaptateurs Ethernet et les DPU Mellanox. En d’autres termes, les serveurs doivent déjà utiliser le silicium NVIDIA, le cas échéant. Les OEM peuvent ensuite soumettre des systèmes répondant à ces exigences matérielles à NVIDIA, qui testera les systèmes sur plusieurs mesures, y compris les performances DL multi-GPU et multi-nœuds, les performances du réseau, les performances de stockage et la sécurité (démarrage sécurisé / racine de confiance). Les systèmes qui réussissent ces tests peuvent ensuite être étiquetés comme certifiés NVIDIA.

Ces systèmes certifiés, à leur tour, peuvent bénéficier d’un support technique complet supplémentaire via NVIDIA et l’OEM. Les clients peuvent choisir d’acheter des contrats de support pluriannuels, ce qui leur donne droit à une assistance via l’OEM et NVIDIA. NVIDIA assume essentiellement la responsabilité de tout le support logiciel au-dessus du système d’exploitation, y compris leurs pilotes matériels, CUDA, leur large collection de frameworks et de bibliothèques, et même les principales bibliothèques open source comme TensorFlow. C’est ce dernier élément qui rend la proposition d’assistance de NVIDIA particulièrement précieuse, car elle s’engage essentiellement à aider les clients avec tout type de problème de GPU ou de logiciel lié au Deep Learning.

Bien sûr, ce support ne sera pas gratuit: c’est là que NVIDIA gagnera son argent. Bien que NVIDIA ne facture pas les OEM pour la certification (il n’y a donc pas de taxe de certification supplémentaire intégrée au matériel), les contrats de support sont tarifés en fonction du nombre de GPU. Dans un exemple, NVIDIA a déclaré qu’un contrat de support de 3 ans pour un système dual-A100 serait de 4299 USD, soit environ 715 USD par an et par GPU pour le support. On peut donc imaginer à quelle vitesse cela monte pour les plus grands systèmes A100 à 4 et 8 voies, puis à nouveau pour plusieurs nœuds.

Pour NVIDIA et ses partenaires OEM, la création d’un programme de certification est un moyen simple d’essayer de développer davantage le marché des serveurs d’apprentissage en profondeur, en particulier pour les entreprises de taille moyenne. Le marché du matériel d’IA est en plein essor et NVIDIA souhaite le maintenir ainsi en facilitant l’utilisation de leurs produits par les clients potentiels. NVIDIA a déjà couvert le haut de gamme du marché à cet égard avec ses relations directes avec les hyperscalers – et par extension leurs clients cloud computing à petite capitalisation – donc un programme de certification matérielle remplit le niveau intermédiaire pour les organisations qui vont exécuter leur propres serveurs, mais ne sera pas un client massif qui recevra une attention personnalisée.

En ce qui concerne ces clients, la certification des serveurs et les programmes d’assistance de NVIDIA sont conçus pour éliminer (ou au moins atténuer) les risques d’investissements importants dans le matériel NVIDIA. Cela signifie être en mesure d’acheter un système où le fournisseur (dans ce cas, le duo de NVIDIA et l’OEM) peut se porter garant des performances du système, ainsi que garantir qu’il sera en mesure d’exécuter correctement divers packages d’intelligence artificielle, tels que NVIDIA. Catalogue NGC de logiciels optimisés pour le GPU et conteneurisés.

Au total, NVIDIA se lance avec 14 systèmes certifiés, avec la promesse de nouveaux systèmes certifiés à venir. Pour la première vague de systèmes, les OEM participants incluent Dell, Gigabyte, HPE, Inspur et Supermicro, qui participent tous fréquemment à de nouvelles initiatives de serveurs NVIDIA.

Cela dit, il est peu probable que le programme de certification des serveurs de NVIDIA change considérablement le fonctionnement de la plupart des clients de l’entreprise; mais c’est un programme qui semble prêt à aborder un créneau spécifique pour NVIDIA et ses partenaires OEM. Pour les entreprises qui s’intéressent à l’informatique GPU mais recherchent un plus grand degré de soutien et de certitude, cela répondrait à ces besoins. Ce qui, pour boucler la boucle, c’est exactement en répondant à ces types de besoins avec des éléments d’écosystème comme la certification de serveur que NVIDIA a connu un tel succès sur le marché des GPU de serveur au cours de la dernière décennie.

Source: NVIDIA