Alors qu’AMD lance le lancement mondial officiel de ses 3rd Famille de processeurs d’entreprise de génération EPYC, nom de code Milan, nous passons du temps avec Forrest Norrod d’AMD pour discuter des nouveaux processeurs, de la manière dont la pandémie a affecté l’adoption, des nouvelles fonctionnalités qui ont influencé le positionnement d’AMD de son nouvel EPYC et des défis futurs qui se rapprochent rapidement processeurs d’entreprise.

AMD 3rd La génération EPYC, également connue sous le nom de Milan, offre jusqu’à 64 cœurs Zen 3 de dernière génération dans un seul socket, avec 128 voies PCIe 4.0, une mémoire DDR4-3200 à huit canaux et une nouvelle série de variantes optimisées pour les performances combinées à de nouvelles fonctionnalités de sécurité . Forrest Norrod, vice-président senior et directeur général du Business Group Datacenter and Embedded Solutions (anciennement Enterprise, Embedded, and Semi-Custom Group, EESC) est à la tête des efforts d’AMD dans ce domaine. Forrest est chez AMD depuis plus de six ans, à la tête de l’équipe depuis le lancement de son produit EPYC de première génération à Naples.

Depuis ce lancement de première génération, Forrest a supervisé le groupe d’une part de marché inférieure à 0,5% (communément appelée erreur d’arrondi) à plus de 10%. Cette croissance de la part de marché s’est directement traduite en revenus pour AMD, et maintenant avec une offre substantielle sur le marché traditionnel du calcul x86 et des entreprises, il sera intéressant de voir dans quelle mesure AMD peut s’imposer, dont une partie est abordée dans ce entretien. L’acquisition de Xilinx par AMD, qui devrait être finalisée plus tard cette année, devrait également permettre de nouvelles stratégies de croissance pour l’EPYC d’AMD sur des marchés non traditionnels pour la société.


Dr Ian Cutress
AnandTech

Forrest Norrod
AMD

Dans cette interview, nous discutons avec Forrest des nouveaux processeurs de Milan, de la manière dont la pandémie a affecté l’adoption d’EPYC, des nouvelles fonctionnalités qui ont influencé le positionnement d’AMD de son nouvel EPYC, des conceptions de processeurs personnalisés, permettant de nouvelles solutions pour piloter les systèmes exascale, et quels sont les défis futurs. approche rapide de l’arène des processeurs d’entreprise.

Ian Cutress: Merci d’avoir parlé avec moi aujourd’hui! Au moment de la mise en ligne de cette interview, AMD est sur le point de lancer sa famille de processeurs EPYC de 3e génération, Milan.

Forrest Norrod: C’est vrai, nous continuons notre tournée en Italie. Pour moi, c’est une étape particulièrement importante, car lorsque j’ai rejoint AMD, il y a environ six ans et demi, juste après que Lisa soit devenue PDG, la mission était de remettre AMD à la pertinence avec le leadership du centre de données. Nous avons organisé cette tournée en Italie, d’abord avec Naples, puis avec Rome, maintenant Milan, et Gênes est la suivante. Mais les trois premières étapes que nous avons mises en place à l’époque, il y a six ans, jusqu’à Milan, c’est incroyablement impactant pour moi-même ainsi que pour toute l’équipe de réaliser cette troisième étape, qui faisait partie du plan initial. C’est formidable à voir et l’équipe a fait un travail incroyable.

IC: Donc, quand nous reprendrons le vol, nous serons à une date ultérieure en Italie pour célébrer le lancement d’un EPYC de nouvelle génération?

FN: J’espère bien que oui. Quand nous avons fait Naples, AMD était juste en train de s’y remettre. Nous étions presque la start-up décousue, encore une fois, dans le centre de données – nous avions des ressources limitées et nous n’avions pas de fonds pour quoi que ce soit de superflu. Mais avec Rome, nous étions dans une situation un peu meilleure, et nous avons en fait organisé un événement à Rome – cette année-là, nous avons organisé un événement de lancement européen à Rome, environ un mois après l’événement mondial. Nous avions bien l’intention de faire un événement éclatant à Milan pour cette génération, et je suis désolé de dire que cela ne s’est pas produit! Mais j’espère que lorsque Gênes arrivera l’année prochaine, nous serons de retour en Italie.

IC: Le lancement du nouvel EPYC de 3e génération, à Milan, voit la plate-forme passer des cœurs Zen 2 aux cœurs Zen 3, avec des mises à jour des performances, du cache et d’Infinity Fabric. Comment AMD positionne-t-elle Milan sur le marché par rapport à la Rome d’AMD et aux offres concurrentielles d’autres sociétés?

FN: Pour nous, c’est la prochaine étape. Si vous pensez à notre stratégie, avec Naples et la première génération, il s’agissait de revenir sur le marché, de démontrer que nous pouvions produire un produit de classe Entreprise et de classe Cloud. Avec Rome, il s’agissait vraiment d’innover autour des puces, d’être le premier à 7 nm et de vraiment prendre un leadership incontesté en matière de performance de débit. Il est également venu avec un assez bon leadership en matière de performance de base et de performance par cœur. Avec Milan, il s’agit de rendre le cœur encore plus fort, de prendre le leadership incontesté en matière de performances par cœur, et d’augmenter également les fonctionnalités de sécurité pour vraiment apporter ce prochain niveau de sécurité native cloud au processeur. Nous considérons donc cela comme une sorte d’aboutissement du leadership d’entrée, du leadership en matière de performance de débit et de leadership de performance avec Milan, tout en misant sur la sécurité.

IC: Nous nous sommes entretenus pour la dernière fois lors du lancement de Rome par AMD, avec pour objectif d’atteindre 10% de part de marché. Au milieu de l’année dernière, AMD a atteint cet objectif. Où allons-nous avec Milan – y a-t-il des objectifs de part de marché, ou des gains spécifiques, qui mesureraient le succès du produit?

FN: Malheureusement, nous sommes actuellement dans notre période de calme et je ne peux malheureusement pas le dire. Mais nous essayons également de ne pas définir d’objectifs de part de marché spécifiques à court terme. Je dirai qu’à long terme, et comme nous l’avons déjà dit, nous avons absolument l’intention de surpasser l’objectif historique de part de filigrane élevé. [The] La part qu’AMD avait autrefois à l’époque d’Opteron était d’environ 26% / 27% de part unitaire et 33% de part de revenus. Nous pensons certainement que nous sommes sur le point d’y retourner, mais je ne veux pas vous donner de points de contrôle intermédiaires. Je dirai que nous pensons que Milan va continuer à conduire l’entreprise, et qu’en réalité, elle est progressivement plus compétitive que la deuxième génération – une augmentation considérable. Mais de plus en plus compétitif que la deuxième génération, nous pensons que l’enthousiasme et l’attrait des clients que nous allons obtenir sont importants.

IC: Toujours dans notre dernière discussion, j’ai posé la question sur les solutions partenaires et la capacité d’AMD à s’exécuter avec des partenaires pour répondre à la demande. Les performances de Milan sont plus élevées et, par conséquent, je soupçonne que vous avez une demande encore plus élevée qu’auparavant. Qu’a appris DESG des lancements passés que vous avez intégrés dans la préparation de ce lancement pour répondre aux demandes des partenaires pour la co-conception de systèmes?

FN: L’un des avantages de Milan est qu’il est compatible avec les sockets et bien sûr, les logiciels sont compatibles avec Rome. Donc, pour les clients qui ont construit des systèmes optimisés pour Rome qui exploitent pleinement toutes les fonctionnalités, telles que le PCIe Gen 4, ou la capacité de mémoire, Milan est à peu près un remplacement instantané. Ils peuvent déposer Milan dans leurs plates-formes et solutions existantes et obtenir une amélioration immédiate des performances. Par [enabling this], nous avons la base solide de tout ce que nous avons fait à Rome, et nous pouvons immédiatement profiter ou nos clients peuvent immédiatement profiter de Milan.

Nous avons donc réfléchi à la manière dont nous pouvons continuer à étendre l’écosystème. Nous [are focusing] Milan sur des domaines où Rome était bonne, mais peut-être pas un leadership incontesté dans certaines des charges de travail par cœur. C’est donc là que vous voyez un grand nombre de nouvelles solutions.

Je dirais que l’autre chose qui s’est vraiment ouverte, c’est que nous sommes en train de généraliser l’adoption de nos fonctionnalités de sécurité. Google a récemment introduit, il y a environ six ou sept mois, son utilisation de la virtualisation cryptée sécurisée pour les VM informatiques confidentielles. Vous verrez d’autres personnes faire cela ici sous peu. Vous avez vu VMware ajouter la prise en charge de SEV à leur [private cloud] ainsi que [public] offre cloud. Vous allez continuer à voir le déploiement de nombreuses solutions qui tirent vraiment parti des nouvelles fonctionnalités de sécurité.

IC: Je m’en voudrais de ne pas poser de questions sur l’offre et la demande. AMD fait actuellement face à une période de forte demande, associée à des pénuries dans quelques domaines clés, tels que les substrats et la technologie d’emballage. Je ne vous demande pas nécessairement de commenter spécifiquement cette situation, mais en quoi cette période de forte demande change-t-elle la manière dont AMD met en œuvre le déploiement de Milan par rapport à un lancement d’entreprise typique?

FN: Je pense que toute l’industrie connaît manifestement un niveau de demande sans précédent. J’ai lu, en venant ce matin, un autre article sur la demande de semi-conducteurs causant des problèmes d’approvisionnement dans l’industrie. Nous pensons que nous sommes en assez bonne forme en termes de quantité absolue d’approvisionnement que nous apportons à la table et certainement, nous accordons la priorité à nos produits d’entreprise, ainsi qu’aux produits pour certains de nos très gros clients tels que le [hyperscalers]. Je ne pense donc pas que nous considérions le lancement comme étant, d’une manière ou d’une autre, limité à l’approvisionnement. C’est une question de priorisation.

IC: La PDG, Lisa Su, au début de l’année, a souligné la division Enterprise / Datacenter d’AMD et Milan, l’un des deux points focaux clés pour 2021, aux côtés de l’activité commerciale. C’est tel que Milan doit être un moteur clé du chiffre d’affaires, de la part de marché et de l’identité de marque de l’entreprise. Comment ce type de lentille focale ajuste-t-il votre approche de la famille de produits, du lancement et de la messagerie?

FN: Du côté du serveur, il a toujours été question des clients du centre de données. Vous avez là la distinction entre le Cloud et l’Entreprise traditionnelle, et je dirai que je pense qu’en général nous avons trouvé le Cloud [customers] être un peu plus rapide pour adopter les nouvelles technologies. Aucun des deux groupes n’est disposé à y aller [head first] à adopter une nouvelle technologie sans la vérifier minutieusement, ou sans vraiment s’assurer qu’elle ne perturbera pas les opérations de leur centre de données. Mais dans l’entreprise, ou dans l’entreprise, les clients finaux, dirons-nous, sont un peu plus conservateurs.

C’est pourquoi nous avons adopté cette stratégie multigénérationnelle très délibérée pour renforcer constamment la force du portefeuille de produits. Il est également très important de faire ce que nous avons dit que nous ferions. Je suis sûr que vous vous souvenez que lorsque nous avons lancé Naples, j’ai publié publiquement cette feuille de route de trois ans, et j’ai dit que nous expédierons Rome en 2019 et que nous expédierons Milan d’ici la fin de 2020. Ce que nous avons fait. Nous lançons Milan cette semaine comme vos téléspectateurs le voient, mais en fait, nous avons commencé les livraisons complètes de production en 2020. Accrocher une feuille de route de trois générations, vous savez, peint en quelque sorte une cible sur votre dos pour que la concurrence puisse tirer. Mais nous avons pensé qu’il était plus important d’établir une référence pour l’exécution que nos clients pourraient examiner et confirmer ce qu’AMD a dit au sujet de la livraison d’un bon produit et de sa livraison à temps. Je pense qu’avoir cette crédibilité est extrêmement important pour que les clients investissent, adoptent notre technologie et l’adoptent.

Il s’agissait en grande partie de créer un excellent produit qui est de plus en plus adapté au client final. Ainsi, le débit avec Rome (EPYC 2nd Gen) était extrêmement important dans le HPC et est extrêmement important pour le Cloud. C’était également un excellent produit pour de nombreuses applications d’entreprise héritées, mais elles ont tendance à être plus sensibles aux performances par thread. Milan a toujours été destinée à être la partie, vous savez, tout simplement exceptionnelle. Leadership absolu pour ces applications d’entreprise. C’est une convergence alors AMD ayant le bon produit pour l’entreprise, sans renoncer au leadership en matière de performance de débit pour le Cloud. Maintenant, nous avons démontré trois générations – nous avons dit ce que nous avions dit que nous allions faire, et nous l’avons fait. Nos clients peuvent nous faire confiance et nous serons là pour vous.

IC: Nous sommes maintenant un an dans cette pandémie, est-ce que cela a freiné les attentes des clients? Y a-t-il eu des réticences à déployer de nouveaux systèmes ou à adopter de nouvelles plates-formes?

FN: Je ne pense pas que cela atténue l’intention ou le désir. En fait, je pense que de ce point de vue, cela a été un peu le vent pour nous, car il y a beaucoup plus de gens qui travaillent à domicile, et tout le monde a maintenant besoin d’un PC. Ce n’est plus un PC par foyer, ou dans mon cas, c’est maintenant quatre sur cinq par personne. Mes enfants ont chacun deux ou trois appareils! C’est donc un vent favorable de ce point de vue dans les entreprises et dans le cloud.

Je dirai que je pense que nous avons constaté un impact sur les qualifications des entreprises. C’est au deuxième et troisième trimestre de l’année dernière, simplement parce que les gens ont fermé leurs portes. Nous avons dû travailler dur pour mettre en place davantage de sites de test à distance, car les clients qui testaient du matériel ou avaient l’intention de le qualifier sur place n’avaient plus de personnes venant faire cette qualification pendant une longue période. Cela nous a définitivement bloqués, je dirais pendant quelques trimestres, en termes de qualification des clients Enterprise en particulier. Mais je pense que nous sommes bien au-delà de cela à ce stade.

IC: l’offre d’AMD pour Milan comprend des produits axés sur la performance générale, la série 7003, ainsi qu’un certain nombre d’éléments spécialisés dans la performance par cœur, la série F. Quel a été le retour d’expérience sur la série F, telle qu’elle a commencé avec Rome, et comment devrions-nous envisager les déploiements clients avec cette nouvelle offre de segmentation?

FN: Eh bien, la série F est définitivement conçue pour les clients qui ont vraiment besoin de ces performances par cœur ou par thread. Il existe de nombreuses applications, en particulier les applications héritées, où cela est d’une importance cruciale, soit pour des raisons de performances globales des applications, soit pour des raisons de coût de licence. La série F est vraiment destinée à des choses comme les outils EDA – les outils que nous utilisons pour concevoir ces appareils multicœurs très complexes ne s’adaptent généralement pas bien aux cœurs! Ces outils de simulation courants sont vraiment dominés par les performances par cœur. Nous considérons donc que la série F est parfaite pour cela, et nous avons connu une augmentation considérable de l’adoption des outils EDA.

Il existe également un grand nombre d’applications d’entreprise héritées qui sont concédées sous licence par cœur. Si vous souhaitez maximiser votre TCO (coût total de possession), il s’agit d’utiliser le moins de cœurs possible. Les coûts du logiciel dominent généralement le coût du matériel, et nous avons donc des clients qui exécutent huit EPYC cœurs dans des systèmes entièrement chargés, entièrement équipés de toute la mémoire que vous pouvez obtenir et de toutes les E / S. Mais ils utilisent un processeur à huit cœurs, un processeur haute fréquence, et c’est parce qu’ils exécutent une base de données où ils sont facturés par cœur. Nous voyons donc vraiment le cœur par cœur, la série F, comme parfait pour ce type d’applications, ces applications dont le coût de licence est dominé, ou lorsque les particularités de l’application sont telles qu’elles ne s’adaptent pas bien au nombre croissant de cœurs.

IC: À Milan, le nouveau processeur supérieur se situe à 280 W.Pour le lancement de Rome, nous avons vu le processeur supérieur uniquement à 225 W ou 240 W, avec un modèle HPC spécial pour 280 W.Chaque client est désormais en mesure de le déverrouiller. produit thermique plus élevé, il améliore les performances, mais au détriment du rendement maximal. Pensez-vous que les clients recherchent autre chose que la performance? L’efficacité est généralement une bonne priorité, mais n’est-ce plus une préoccupation majeure?

FN: Je dirais que pour de nombreux clients, tout est question de performances, de performances et de performances. À l’origine, nous n’avions pas prévu de changer les gammes TDP standard pour les pièces grand public, pour cette génération de Milan, et nous pensions que nous allions garder les mêmes valeurs. En fait, une partie de notre stratégie de compatibilité des prises autour de Rome était de conserver la prise, le TDP, et de garder les spécifications autour de la puissance à fournir et sur les différents rails de tension. à l’origine, ils les ont définis pour Rome, mais nous avons reçu de très bons commentaires de la part de nombreux clients. Ils voulaient la flexibilité pour pouvoir aller plus haut en puissance, et que beaucoup de leurs clients finaux disaient que la performance était la chose dominante.

Jusqu’à ce que vous dépassiez un certain seuil pour déterminer le coût de la fourniture de cette puissance ou du refroidissement, cela commence vraiment à aller de manière asymptotique. Après avoir travaillé avec les équipementiers, nous avons constaté que 280 watts étaient en quelque sorte ce point pour la plupart des systèmes refroidis par air. Nous avons également des pièces TDP configurables, et la grande majorité des pièces peuvent fonctionner dans une plage de 225 à 280 watts, de sorte que le client peut faire son choix.

IC: L’une des mesures à prendre en compte avec les conceptions de processeurs AMD est de savoir où va la puissance. Outre les puces 7 nm de TSMC, la matrice IO centrale provient de GlobalFoundries, et avec l’augmentation des performances d’Infinity Fabric, la matrice IO consomme désormais près de 40% de la puissance totale du processeur. Sommes-nous confrontés à un mur d’alimentation IO – que peut faire AMD sur ce front s’il enlève de l’énergie aux cœurs?

FN: J’aurais tendance à être d’accord avec cela. Je dis à l’équipe que chaque watt que nous dépensons pour nos E / S, ou quoi que ce soit d’autre que le noyau, c’est une puissance qui ne va pas à la métrique qui intéresse le plus les clients – exécuter ce code. La puissance IO a été une priorité pour nous sur cette génération, et [it will be] aller de l’avant.

Ainsi, le dé I / O (sur Milan) est en fait modifié depuis Rome. À l’origine, nous prévoyions que ce soit identique. C’est très proche, mais la plupart des changements [in the new design] étaient en fait autour de la puissance pour améliorer l’efficacité de cette matrice d’E / S, parce que nous la parcourons davantage à Milan. Je pense qu’en regardant vers l’avenir, nous allons continuer à appliquer des techniques de conception plus agressives sensibles à la puissance dans la prochaine génération de l’uncore.

La matrice d’E / S dans les systèmes EPYC actuels est synonyme de ce que nous appelons uncore – essentiellement tout ce qui ne fait pas partie du noyau. En général, nous essayons de stimuler beaucoup plus d’innovations autour de la gestion de l’énergie et de l’efficacité énergétique dans l’uncore. Vous allez nous voir continuer à piloter le nœud de processus très dur à la fois sur les cœurs et sur l’uncore. Nous allons continuer à stimuler l’innovation autour de l’interconnexion. Donc, Infinity Fabric en tant que protocole a beaucoup de jambes, mais vous nous verrez continuer à faire des choses pour rendre cela de plus en plus économe en énergie et réduire le picojoule par bit de trafic de commutation.

IC: Avec Rome, nous avons vu un certain nombre de clients hyperscaler d’AMD obtenir des versions spécialisées de ces processeurs, avec un nombre de cœurs / des limites de puissance / des fréquences groupées personnalisés. Est-ce que ce sera la normale à l’avenir, et voyez-vous une demande accrue pour ces versions personnalisées?

FN: Oui, oui, oui et oui. Je pense que tout le monde qui fonctionne à grande échelle est toujours vivement intéressé à peaufiner chaque petit bouton pour extraire toutes les performances et toute l’efficacité. Si vous l’examinez, vous verrez dans de nombreux cas que la plate-forme utilisée par un client hyperscale donné pourrait – par exemple, disons Tencent, je choisis simplement au hasard – ils n’utilisent pas toutes les voies d’E / S. . Cette configuration particulière pour laquelle ils ont optimisé est pour exécuter leurs instances aussi efficacement que possible, et ils n’utilisent pas toutes ces E / S, et donc la personnalisation de la pièce, pourtant au moins à un égard, fait que je / O off, le fusionnant, de sorte qu’il ne tire aucune puissance et détourne cette puissance vers les cœurs. Vous obtenez une fréquence de base plus élevée par exemple dans ce cas particulier. Je pense que nous allons continuer à [offer customized solutions] partout où il y a un tas d’échelle là où cela est justifié, là où cela fait une différence pour le client final. Nous allons continuer à explorer des choses comme ça.

IC: Intel fait la promotion du fait que la moitié de ses ventes totales de processeurs d’entreprise sont de type «personnalisé» pour les gros clients. Pouvez-vous dire où AMD se situe avec ces proportions?

FN: Si j’utilise leur définition de semi-personnalisé, c’est probablement similaire. Oui, je devrais y réfléchir, mais c’est probablement la même chose.

IC: Je suppose que la question suivante est de savoir s’il y a une quantité minimum de commande pour obtenir une pièce personnalisée?

FN: Tu veux dire, pour toi?

IC: Bien sûr, j’en aurai un spécial! Ou peut-être deux, faisons un double socket!

FN: [chuckles] Eh bien, vous auriez probablement besoin de quelques pièces de rechange au cas où!

En fait, nous n’avons pas de règle absolue [about minimum order quantity]. C’est une conversation avec le client. Pour être franc, cela dépend de ce que nous pensons être l’opportunité à long terme. Si nous pensons que c’est un hyperscaler qui va faire sauter les pneus, et que le volume sera relativement modeste en une génération, mais qu’il y a une excellente perspective à long terme, alors nous serons beaucoup plus accommodants. Tout dépend de ce que nous considérons comme une opportunité à long terme.

IC: Que pensez-vous du verrouillage d’un processeur donné sur la conception de la plate-forme d’un client spécifique?

FN: Il y a là un désir de sécurité, et d’essayer d’améliorer la sécurité et d’essayer d’améliorer la sécurisation de la provenance d’un système qui s’exécute dans le centre de données de quelqu’un, qu’ils puissent être sûrs que c’est exactement ce qu’ils avaient l’intention d’acheter et que le fournisseur du système l’a approuvé. [The system] est celui qui a été construit comme prévu, et personne ne l’a ajusté depuis le moment où il a été construit et testé, et vous pouvez être assuré que c’est ce que vous avez. Voilà donc l’intention [of locking], et c’est quelque chose que nous soutenons. Nous ne facturons pas réellement [our customers] pour cela au fait – je veux dire de notre point de vue, ce n’est pas comme si nous gagnions plus d’argent en faisant cela. Nous essayons de répondre aux demandes de nos clients OEM et de certains de leurs clients finaux pour garantir une sécurité absolue de la chaîne d’approvisionnement.

IC: Au cours de l’année dernière, nous avons vu les clients d’AMD faire des progrès avec des technologies telles que l’informatique confidentielle. Quelles sont les nouvelles améliorations de sécurité dans l’arsenal de Milan?

FN: Il y en a un couple. Si vous regardez ce que nous avons déjà implémenté dans les générations précédentes d’EPYC, il s’agissait de fournir une isolation cryptographique et un moteur de cryptage capable de chiffrer tout le contenu d’une machine virtuelle, voire même simplement un processus. Cela signifie que quiconque sans cette clé, même l’administrateur système, ne pourrait pas consulter cette machine virtuelle. À Milan, nous avons encore amélioré cela avec une pagination imbriquée sécurisée qui rend la tâche difficile même si l’hyperviseur est compromis – si quelqu’un a délibérément compromis l’hyperviseur et avait une porte dérobée [to the system], la pagination imbriquée sécurisée protège toujours le contenu de l’état de cette machine virtuelle chiffrée.

L’autre est lié à ces techniques de programmation orientées retour, opérées par retour, qui ont conduit à certaines de ces vulnérabilités. Nous avons cette chose appelée Shadow Stack qui aide à fournir une sécurité supplémentaire pour nous assurer que ces effets très subtils dont certains pirates ont montré qu’ils peuvent extraire des informations [aren’t possible]. Nous essayons de les obscurcir davantage et de rendre difficile le compromis.

IC: Les nouveaux processeurs Milan ont désormais une fonction d’entrelacement de mémoire avec 8 canaux de DDR4, 6 canaux de DDR4 ou 4 canaux de DDR4. Arrivons-nous à un stade où les clients veulent des configurations de canal mémoire réduites parce que la DDR prend trop d’espace physique ou coûte trop cher?

FN: C’est une excellente question! Nous avons donc des clients qui ont un point d’optimisation particulier et qui veulent une quantité de mémoire particulière. Ils ne veulent pas compromettre les performances pour obtenir cette quantité de mémoire ou occuper de l’espace physique. À Rome ou à Naples, avec huit canaux de mémoire, vous pouviez obtenir des performances optimales – vous pourriez obtenir un assez bon système bien optimisé et équilibré avec seulement quatre canaux de mémoire, évidemment votre bande passante théorique est réduite de moitié, mais elle était bien optimisée. Si vous aviez six canaux de mémoire, vous obtenez cette condition quelque peu déséquilibrée où la latence et le débit [would depend on a number of factors], c’est donc ce que nous avons vraiment essayé d’aborder avec les six canaux pour donner cette flexibilité supplémentaire pour dimensionner correctement la quantité de mémoire pour votre charge de travail sans renoncer à la performance.

IC: Alors qu’AMD augmente les performances de sa gamme de processeurs, la bande passante vers la DRAM reste constante. Existe-t-il un point d’interception idéal où une mémoire à bande passante plus élevée a du sens pour un client?

FN: Je pense que vous avez tout à fait raison, et vraiment au sommet de la pile, en fonction de la charge de travail, cela peut être le limiteur de performances. Si vous comparez les parties supérieures de la pile dans certaines charges de travail, vous n’allez pas voir autant de gains de performances de génération en génération, simplement parce que la bande passante mémoire est limitée à la fin de la journée.

Cela va continuer alors que nous continuons d’augmenter les performances des cœurs et d’augmenter le nombre de cœurs. Mais vous devez vous attendre à ce que nous continuions à augmenter la quantité de bande passante et la prise en charge de la mémoire. La DDR5 arrive, qui a un peu de marge de manœuvre pour la DDR4. Nous constatons de plus en plus d’intérêt à utiliser une mémoire à bande passante élevée, pour une solution sur package. Je pense que vous verrez dans le futur des SKU de diverses entreprises intégrant HBM, en particulier pour l’IA. Ce sera dans un premier temps assez spécialisé pour être franc, car HBM est extrêmement coûteux. Donc, pour la plupart de la mémoire DDR standard, même la mémoire DDR5, cela signifie que HBM sera initialement confiné aux applications qui sont incroyablement sensibles à la latence de la mémoire, puis vous savez, il sera intéressant de savoir comment cela se déroule au fil du temps.

Vous pouvez voir une bifurcation arriver dans la feuille de route, où il y a des parties qui ont des hiérarchies de mémoire différentes. Peut-être avec une mémoire de classe de stockage comme magasin principal avec un HBM-on die, ou une mémoire plus petite presque comme un cache L4, ou peut-être une ressource gérée par logiciel dont l’application peut tirer parti. Mais de toute façon, je pense que vous verrez de l’innovation dans le système de mémoire au cours des prochaines années.

IC: Sur le thème de l’innovation, à la fin de l’année dernière, AMD a lancé son architecture CDNA et ses accélérateurs. En ce qui concerne Milan, y a-t-il quelque chose ici qui contribue à augmenter les performances de ces accélérateurs?

FN: Il y a quelques améliorations de tissu à Milan qui sont assez subtiles. Ils augmentent la bande passante entre les cœurs et les accélérateurs, en particulier dans un système entièrement chargé. L’autre chose est que vous verrez qu’il y a quelques systèmes qui ont été construits avec Milan qui vous permettent d’overclocker les liens PCIe. Nous prenons en charge, dans certains systèmes, l’augmentation de la fréquence un peu plus rapide.

Je m’en voudrais de ne pas dire que nous avons également doublé les performances INT8 de la pièce. Ainsi, pour les clients qui n’ont pas encore adopté les accélérateurs GPU ou les accélérateurs FPGA, ils veulent toujours rester dans le paradigme de programmation CPU standard, et donc en particulier pour l’inférence, nous voyons un certain nombre de clients exécutant vraiment leurs charges de travail d’inférence sur des processeurs. Ce doublement des performances INT8 aide vraiment un peu.

IC: Donc, juste pour confirmer, c’est l’overclocking du lien PCIe, pas du cœur?

FN: Oui, oh oui, oui, oui. Exactement. Overclocking du PCIe. L’overclocking n’est probablement pas la bonne façon de le dire! Il y a une chose appelée ESM, Extended Speed ​​Mode, c’est une norme et nous la prenons en charge.

IC: AMD a récemment publié la pile complète ROCm 4.0 en tant que solution complète exascale pour l’apprentissage automatique et le HPC. Comment le ROCm évolue-t-il en 2021 et comment cela évolue-t-il entre EPYC et CDNA?

FN: Excellente question. Nous avons parlé publiquement de ROCm 4.0 à plusieurs reprises et nous en reparlerons également lors du lancement. Nous sommes extrêmement fiers de faire partie des efforts visant à construire (ce que nous pensons être) le premier système exascale au monde, qui sera déployé à Oak Ridge National Labs plus tard cette année. Il s’appelle Frontier et utilise vraiment une architecture CDNA de nouvelle génération, Instinct parts, ce que nous n’avons pas encore annoncé. Il utilise également un processeur de génération Milan, et la raison pour laquelle je dis que c’est en fait le processeur de ce système s’appelle Trento – c’est un frère de Milan si vous voulez. C’est légèrement différent – il y a un morceau de silicium physiquement différent dans la puce d’E / S, donc il est légèrement différent de Milan. Mais l’aspect clé est quelque chose que nous pensons être extrêmement important pour l’avenir: c’est un système cohérent. Le CPU et le GPU partageront un espace d’adressage virtuel cohérent. La chose importante [with a coherent virtual address space] c’est que vous n’avez plus à passer beaucoup de temps à programmer à gérer des pools de mémoire totalement séparés. Il accélère considérablement certaines charges de travail en pouvant avoir un pool de mémoire cohérent [shared] entre les processeurs et les GPU. Nous pensons que c’est extrêmement important pour l’avenir, et nous sommes très fiers que la première instanciation se fasse avec la plus grande machine du monde.

IC: Eh bien, c’est une super petite friandise sur Trento, merci de le dire. Alors, Frontier serait-il la visualisation ultime de cette topologie «All-to-All» Infinity Fabric?

FN: Nous continuerons d’évoluer [Infinity Fabric] au fil du temps, mais Frontier est un grand jalon important. Dans Frontier, vous obtenez ce Infinity Fabric totalement cohérent qui connecte le CPU au GPU et les GPU les uns aux autres. Je pense donc que c’est un excellent point de preuve pour l’évolutivité d’Infinity Fabric et ce qu’il peut faire.

Merci à Forrest Norrod et à son équipe pour leur temps.