Nous savons tous que nous mettons des processeurs dans des serveurs, des serveurs dans des racks, des racks dans des centres de données, puis ils « font des choses ». Qu’il s’agisse d’un hyperscaler gérant une infrastructure interne, offrant des services externes, des entreprises traitant des flux de travail, des machines hautes performances travaillant sur les dernières simulations météorologiques ou nucléaires, des sociétés de médias sociaux étendant leurs services à des milliards d’utilisateurs ou de petites startups ayant besoin de ressources évolutives pour leur nouveau idée monétisable, il y a toujours un centre de données et une épine dorsale d’entreprise.

Le besoin de beaucoup de ressources informatiques s’accompagne d’un certain nombre de problèmes fondamentaux, dont le principal sera probablement la normalisation. Sans une taille, une profondeur ou une définition cohérente de la taille d’un serveur, un déploiement peut facilement se transformer en un méli-mélo de matériel mal formé sans méthodologie de conception de haut niveau discernable. Alors que les fournisseurs de silicium ou les partenaires OEM qui construisent les systèmes pourraient avoir leur propre façon de faire les choses, sans un effort de collaboration pour définir des normes, nous serions encore dans les années 1970 ou 1980 où les systèmes finissent par être uniques pour un client particulier. En plus de cela, il y a une volonté primordiale au 21e siècle pour s’assurer que les déploiements d’entreprise sont également économes en énergie.

Lorsque Facebook a mis à l’échelle ses technologies et est passé à une utilisation entièrement publique à la fin des années 2010, il a lancé un projet interne autour de l’efficacité et de l’évolutivité des données. L’objectif était d’aboutir à une solution fournissant des ressources évolutives, un calcul efficace et permettant des économies de coûts. En 2011, combiné avec Intel et Rackspace, le projet Open Compute a été lancé pour permettre un ensemble de normes ouvertes qui pourraient profiter à tous les principaux acteurs de l’industrie. OCP est également une organisation fluide, offrant à sa communauté une structure conçue pour permettre une collaboration étroite sur ces normes en constante évolution, poussant pour un « matériel de base plus efficace, flexible et évolutif, se débarrassant des chaînes de taille unique propriétaires- tous les engins’. OCP dispose également d’un programme de partenariat certifié, permettant aux clients externes de faire partie de l’écosystème qui couvre les installations du centre de données, le matériel, la mise en réseau, le micrologiciel ouvert, l’alimentation, la sécurité, le stockage, les télécommunications et les technologies futures.

Alors que les fondateurs initiaux comprenaient Intel et Facebook, les autres sociétés impliquées incluent ASUS, Arm, IBM, Google, Microsoft, Dell, HPE, NVIDIA, Cisco, Lenovo et Alibaba. Un exemple de la façon de penser à OCP est qu’un rack OCP mesure 21 pouces de large, plutôt qu’un 19 pouces standard, ce qui permet une plus grande circulation d’air, mais les racks sont également plus hauts et peuvent accueillir plus d’unités. Certaines parties du rack utilisent des étagères d’unité d’alimentation haute tension dédiées qui alimentent le reste des serveurs du rack, plutôt que de compter sur chaque système pour avoir sa propre alimentation. Cela permet également à chaque serveur de s’adapter davantage, comme une conception à six lames 2U ou une conception 2U à 30 disques pour le stockage qui permet aux disques de rester à plat plutôt que verticaux. Le facteur de forme OAM pour les accélérateurs graphiques haute puissance vient des mots (OCP Accelerator Module), issus du groupe. Il y a deux ans, nous avons fait un reportage sur la plate-forme de formation unifiée Zion de Facebook, conçue selon les spécifications OCP, utilisant les processeurs Cooper Lake d’Intel.


Rebecca Hebdomadaire

Projet de calcul ouvert


Dr Ian Cutress

AnandTech

Dans cette interview d’aujourd’hui, nous avons Rebecca Weekly, qui est non seulement vice-présidente et directrice générale d’Intel Hyperscale and Strategy Execution, mais également ingénieur principal principal d’Intel. Cependant, aujourd’hui, nous lui parlons dans son rôle de présidente et de présidente du conseil d’administration du projet Open Compute, promue le 1er juillet 2021. Lorsque l’équipe des relations de presse a fait circuler la nouvelle que Rebecca assurait le rôle, j’ai contacté et nous a demandé si nous pouvions interviewer pour avoir un aperçu plus approfondi de l’OCP.

Ian Cutress : Vous avez été élu président de l’Open Compute Project – depuis combien de temps êtes-vous impliqué avec OCP ? Et qu’est-ce que votre fonction de président implique exactement ?

Rebecca Weekly : Excellente question ! Je suis membre du conseil d’administration d’OCP depuis septembre 2020. J’ai commencé (à défaut d’un meilleur terme) à suivre la personne précédente dans le rôle d’Intel en juillet, mais j’ai pris le poste en septembre. Mais je suis impliqué dans des projets avec OCP depuis longtemps !

Chez Intel, je travaille avec des clients hyperscale, et trois de ces fournisseurs de cloud hyperscale font partie du conseil d’administration d’OCP. J’ai travaillé sur de nombreux projets OCP, que ce soit le mont Olympe, qui a été donné [to OCP] en collaboration avec Microsoft, ou l’un des Yosemite v1/v2/v3, qui ont été donnés par le partenariat Facebook. Ces projets sont des choses sur lesquelles nous travaillons depuis toujours. Avec ces systèmes, nous avons des packages de support de firmware, des choses comme OpenBMC. Je veux dire, il y a tellement de projets du point de vue de la gestion (et de la conception modulaire) qui tournent autour de mon travail quotidien – travailler avec les clients pour s’assurer qu’ils ont le type de systèmes de calcul modulaires qui sont sans vanité et sont prêts aller dans l’écosystème.

Cela a toujours fait partie de mon travail quotidien depuis que je suis arrivé chez Intel il y a six ans. C’était très naturel [to be a part of OCP]. Mais le plateau est très différent ! C’est une façon différente de penser. Lorsque vous entrez, vous examinez l’écosystème open source et votre stratégie de contribution à cet écosystème open source – à partir d’une entreprise spécifique, vous pensez aux composants de base qui doivent pouvoir fonctionner ensemble, et comment nous permettons cela tout en gardant notre sauce spéciale unique, non? C’est notre métier chez OCP. C’est notre responsabilité envers nos divers intervenants. Lorsque vous êtes membre d’un conseil d’administration, vous pensez à l’avenir de cette industrie et de la communauté que vous servez – à ce qui doit se passer dans cette industrie compte tenu des grandes tendances qui se produisent.

Cela a été un tourbillon – tout d’abord, être sur une planche avec Andy Bechtolsheim (que j’admire) est génial. Tous ceux avec qui j’ai l’occasion de servir, comme Mark [Roenigk, Facebook], Partha [Ranganathan, Google], Zaïd [Kahn, Microsoft], et Jim [Hawkins, Rackspace] – ce sont tous des humains phénoménaux, qui pensent vraiment à la fois à l’avenir de l’industrie et des communautés qu’ils servent, et ils portent ces chapeaux avec beaucoup de grâce. Je trouve cette opportunité de voir ce que je suis censé faire pour mon travail quotidien – ce que je suis censé faire pour Intel, mais aussi ce que je suis censé faire pour cette communauté. Il s’agit de s’assurer que tout peut être synergique, mais de reconnaître la tâche. Je suis ici à ce titre – C’est le chapeau que je porte et c’est ce que je dois faire.


Serveur OCP Cascade Lake

IC : Parfois, ils doivent entrer en conflit ? Si différentes parties du conseil d’administration veulent faire des choses différentes de ce que veut Intel, c’est que l’industrie va dans une direction donnée ?

RW : Quelque chose que j’ai fait très tôt, c’est d’énumérer tous les différents groupes de travail d’OCP. J’ai été totalement explicite avec mes partenaires du conseil d’administration sur les groupes qu’Intel envisage d’ignorer – car ce n’est pas notre travail de contribuer dans des domaines spécifiques. Nous pensons que nous avons beaucoup de sauce spéciale pour nos domaines clés, et nous sommes là pour participer, et j’espère que nous contribuerons à garantir que les contributions clés de chacun sont impliquées. Tout ce que nous pouvons apporter du point de vue de l’expérience, nous avons de l’expérience là-bas, nous l’avons fait, ne vous engagez peut-être pas dans cette voie !

Mais en général, du côté d’Intel, nous observons la plupart des domaines par rapport aux autres où nous essayons de mener et où nous pensons que c’est essentiel pour l’avenir [of Intel]. J’ai donc parcouru les groupes de travail d’OCP, pris note de tous les projets, comme leur statut, et comment ça fonctionnait vraiment. Parce qu’il y a tellement de parties différentes d’Intel qui contribuent à OCP, des outils aux logiciels, micrologiciels, BIOS et tout ce qui se passe du côté système pour les composants système, qu’il s’agisse d’une carte d’extension réseau ou de quelque chose qui se passe au niveau de l’espace silicium du commutateur, par rapport à ce qui se passe sur une carte mère. Il y a donc beaucoup de domaines différents où les gens peuvent contribuer, et nous essayons de mettre tout le monde sur la même longueur d’onde, avec vérité et transparence. [We always ask] où en sommes-nous – et ensuite partager cela. Donc, si un sujet est abordé, je dois dire « Je ne peux pas vraiment en parler, ce n’est pas quelque chose dont je suis autorisé à parler, ou ce n’est tout simplement pas quelque chose auquel nous allons contribuer ». Je peux parler en mon nom, en tant que président du conseil d’administration, mais pas en ma qualité de travail pour Intel.

IC : OCP est l’Open Compute Project, et il est très axé sur l’industrie hyperscale d’entreprise. Ce ne sera pas pour les personnes qui envisagent leur système domestique ou leurs réseaux domestiques ! Mais comment définiriez-vous l’OCP pour les personnes qui n’en ont jamais entendu parler auparavant ?

RW : Bien sûr ! OCP, comme vous l’avez dit, c’est l’Open Compute Project, et c’est vraiment une communauté avant tout. C’est une communauté, et c’est « par des ingénieurs, pour des ingénieurs », c’est probablement pourquoi je l’aime tant ! Cela a commencé en 2011, et fondamentalement, il s’agissait de conceptions efficaces de serveurs, de stockage, de centres de données et de matériel. C’est l’une des rares communautés que je connaisse, ou en fait la seule communauté que je connaisse, qui ne se concentre pas uniquement sur un seul élément, comme les couches de protocole thermique ou électrique pour l’interconnexion dans une certaine mesure. Pour ceux-là, nous avons JEDEC et PCI-SIG. [OCP] concerne les systèmes, les implémentations.

[For the others], c’est bien de parler à la racine de confiance matérielle de manière isolée, mais si vous voulez que tous ceux qui participent à votre chaîne d’approvisionnement aient une implémentation d’une racine de confiance cohérente, vous devez aller quelque part et forcer une spécification d’implémentation pour cela comme ainsi qu’un organisme de conformité dans un certain sens pour s’assurer que cela se produise. Donc OCP est vraiment la seule communauté que je connaisse qui fait ce travail.

Si vous repensez à 2011, vous aviez toujours SGI, vous aviez encore toutes ces pseudo-entreprises folles qui faisaient MIPS, qui faisait partie de SGI à l’époque. Mais ils effectuaient des implémentations individuelles spécifiques de systèmes très sophistiqués – vous souvenez-vous avoir parcouru les centres de données avec toutes les LED, et ils étaient tellement parfaits ? À l’époque, les entreprises fabriquaient leurs propres vis comme si c’était important !

IC : Ils se concentraient sur des conceptions sur mesure par client ?

RW : Exactement. Ensuite, cette communauté s’est réunie et a dit « nous ne nous soucions pas que ce soit du contreplaqué, cela n’a pas d’importance » – parce que conceptuellement – ils se souciaient du matériel sans vanité avec cohérence. [The community asks itself] « comment pouvons-nous favoriser la convergence sur des composants sans vanité pour augmenter l’offre, réduire les coûts et améliorer le PUE * ?. La communauté a posé des questions sur tout ce qui était vraiment important dans l’espace de domaine pour que le centre de données décolle.

C’est, à votre avis, très hyperscaler. Mais en fait, si vous regardez les contributions du marché que les gens adoptent, 58% des adoptions du marché OCP sont des opérateurs de télécommunications et de réseaux. La communauté a tellement changé au cours des 10 dernières années, et il y a beaucoup de changements qui continueront de se produire. Je pense, comme vous le savez, que nous devenons de plus en plus hétérogènes, d’autant plus que les données sont plus désagrégées, et tout ce que nous traitons en tant que communauté signifie qu’il y a des changements en cours.

*PUE = Power Usage Effectiveness, une mesure de la quantité d’énergie entrante dans un centre de données est utilisée dans les serveurs. Les meilleures valeurs de PUE sont de 1,06 ou moins, ce qui signifie que pour chaque 106 W entrant, 100 W sont utilisés. Un PUE moyen est de 1,4 à 2,0, un mauvais PUE est de 2,5+.

IC : J’ai remarqué qu’au cours de la période d’existence d’OCP, il évolue en fonction des besoins. La chose la plus importante actuellement sur le marché est l’IA et la volonté de créer des solutions davantage axées sur l’IA pour que tout le monde puisse les utiliser. À votre avis, la transition vers les déploiements 5G et les télécommunications, qui semble être une très grande priorité en ce moment ?

RW : En ce sens, il se passe des choses intéressantes avec la détection d’anomalies de réseau, et plus d’une perspective logicielle pour l’utilisation de l’IA, évidemment. Mais dans OCP, nous avons OAM, ou OCP Accelerator Module [which is a unified form factor for high-powered compute cards]. Dans le cadre d’OCP, nous réfléchissons aux facteurs de forme que nous pouvons aider à créer afin que les gens puissent choisir, par exemple, de prendre une puce Cerebras, ou de prendre un autre accélérateur d’IA ou autre, vous connaissez le plus récent, le plus récent et le meilleur, et sera et pourra tirer parti de l’empreinte du système et de l’empreinte de validation qui sont déjà dans l’écosystème.

IC : J’ai remarqué qu’Intel a récemment racheté quelques sociétés d’IA, et elles se sont toutes tournées vers ce type d’interface OAM !

RW : Ouais !


Communauté OCP

IC : Donc, si nous regardons les sociétés répertoriées dans OCP, nous avons ASUS, ARM, IBM, Google, Microsoft, Dell, HPE, NVIDIA, Intel, Cisco, Lenovo, Alibaba. C’est beaucoup dans l’industrie, et vous avez dit que vous travailliez avec trois des sept hyperscalers dans votre rôle chez Intel. L’OCP est-il en train d’augmenter le nombre de ses membres, ou est-il à un niveau sain, ou y a-t-il d’autres personnes qui doivent être impliquées qui ne le sont pas actuellement ?

RW : La Fondation OCP compte aujourd’hui environ 250 entreprises membres – elle n’était au départ que de six. Il y a donc certainement un nombre énorme de participants en croissance. Il y a plus de 5 000 ingénieurs, 16 000 participants et 29 projets actifs à travers le monde. Nous évoluons au fur et à mesure que les espaces de domaine changent et grandissent. Donc, évidemment, nous avons une sécurité et des opérations spécifiquement pour la sécurité, il y a des projets de refroidissement avancés, des domaines dans les solutions de connectivité, les tests, la validation, l’activation. Il y a tellement de choses, par exemple, il y a eu tellement d’excellents articles récemment écrits par des membres de l’OCP sur la complexité des tests et de la validation, ou sur la cohérence, car nous avons plus d’hétérogénéité dans les systèmes.

L’un des projets impressionnants et étonnants qui a été au centre de l’attention l’année dernière est la durabilité et l’examen des pratiques durables, car il n’y a aucune cohérence dans la déclaration des émissions en ce qui concerne les équipements TIC. Il n’y a également aucune norme en matière de reporting, aucune sorte de meilleures pratiques pour les opérations. [At the base level], c’est différent de la façon dont votre ordinateur portable fonctionne, comme passer en mode suspension et tout ce qui a des normes – c’est vraiment différent que si vous essayez d’exploiter une infrastructure de cloud public. Pour cela, vous devez avoir un certain engagement d’un point de vue SLA [for your customers] pour accélérer la latence, mais vous n’êtes en fait pas pleinement utilisé la plupart du temps. Cela signifie que vous travaillez avec un état d’esprit « toujours actif », mais [the task is to] ne pas brûler d’énergie si cela n’est pas nécessaire. Je suis un hippie total, donc je suis vraiment excité à l’idée que nous réunissions cette communauté !

Mais aussi, il y a des entreprises qui font toutes sortes de réclamations. Il n’y a rien de standard pour le comparer – leur réclamation est « telle que mesurée par » une entreprise embauchée avec une méthodologie qui n’a pas été validée [or standardized]. Les gouvernements n’ont pas nécessairement intensifié cet espace non plus. Mais je pense qu’il s’agit d’un espace de domaine où les communautés open source peuvent vraiment faire la différence – au moins elles peuvent commencer, puis d’autres peuvent en prendre note.

IC : L’un des groupes récents qui, je pense, intéresse la plupart de notre public est l’architecture spécifique à un domaine ouvert, une sorte de « marché ouvert de puces ». Parce qu’Intel s’oriente vers cela, et les concurrents d’Intel s’orientent dans cette direction, et même lorsque j’ai parlé des puces d’IA, certaines de ces conceptions sont essentiellement des puces dans une grande infrastructure. Ce marché a été annoncé il y a environ deux ans – avez-vous une idée de ce qui se passe actuellement avec le type de normes de puces, avec OCP ?

RW : Tant et pas assez ! Mais vous savez, je pense que vous avez fait un excellent point, à savoir que tout le monde entre dans cet espace de domaine. Que ce soit en 2D ou en 3D, il se passe beaucoup de choses intéressantes avec les technologies 3D et la technologie 2D. Je pense qu’il est juste de dire que nous avons probablement trois, ou au moins certainement deux, principales choses qui se produisent.

ODSA lui-même, en tant que groupe de travail, a travaillé pour créer une sorte de mentalité de puce de test, où nous pouvons effectivement donner une implémentation de référence de deux technologies d’empilement 2D différentes avec deux usines différentes de chaque côté du fil. C’est un projet OCP, et il s’agit vraiment d’essayer de créer [combined products]. Que ce soit un tas de fils est utilisé [that’s a technical term, BoW], ou un bus d’interface avancé (AIB) est utilisé, il y a beaucoup de choses dans cet espace de domaine.

Nous évaluons tous ces technologies en fonction du débit, mais aussi en fonction de choses très simples, comme le droit de licence et d’utilisation. Ce sont des choses qui exigent simplement que les communautés se rassemblent, aient le débat et la discussion. C’est donc vraiment là que se concentre cette équipe et ce groupe de projet.

Quand je regarde ce qui se passe dans l’écosystème, il y a eu des conversations vraiment intéressantes qui ont eu lieu en novembre de l’année dernière, lors du Sommet virtuel OCP. Ils ont commencé à parler de ce concept d’un Open Chiplet Marketplace. C’est en quelque sorte une idée originale de Google, où les entreprises se réunissent et rassemblent les gens pour parler non seulement de thermique ou d’électricité, mais comment et quand nous produisons réellement ces choses, ainsi que la couche logicielle, créant une cohérence, et comment créons-nous un modèle de sécurité, [especially] quand les chips sont faites n’importe où? [We ask whether] nous avons certains aspects de la composabilité et de la maniabilité, ce genre de choses.

Donc, vous vous souvenez probablement du moment où les cartes NVIDIA ont commencé à arriver dans le cloud public. C’était un cauchemar. Vous ne pouviez pas les découper pour des machines virtuelles, et si quelque chose n’allait pas dans l’appareil, toute la visibilité provenait de la machine virtuelle. Ainsi, le fournisseur qui le fournit en tant que fournisseurs de matériel, nous n’avons jamais vraiment pensé au monde dans lequel les clients gèrent le matériel. Mais des problèmes comme celui-ci se produisent toujours! Je me concentre sur ce domaine depuis six ans chez Intel.

Mais nous approchons du 15e anniversaire d’AWS. Même maintenant, nous essayons toujours de comprendre fondamentalement ce qu’il faut pour faire fonctionner un ensemble de matériel de cloud public. C’est très différent.

Avec les puces, il y a tellement d’espace de domaine de l’interconnexion réelle sur le marché, et comment cela pourrait fonctionner pour avoir un logiciel et une composabilité cohérents. Je pense qu’il y a une tonne à découvrir en termes de validation, de s’assurer que cela fonctionne et de le créer à grande échelle. Je ne sais pas où ça ira – je veux dire, je suis tellement excité de voir où ça ira. C’est comme ma journée typique, vous savez – il y a certaines parties de mon monde où je sais que le but est d’arriver à un endroit où vous avez juste les robots et ils composent le CPU, ou XPU, avec tous ces pré-validés chips. Soudain, boum ! Vous exécutez quelques tests de rodage dessus et vous disposez maintenant d’un tout nouveau XPU à grande échelle qui correspond exactement à ce dont l’utilisateur final avait besoin ! Y arriverons-nous ? C’est dans des décennies, mais je pense que c’est ce vers quoi ce genre de technologies commence à nous amener.

IC : Je pense qu’il est vraiment important que lorsque nous commençons à déplacer les architectures de puces/tuiles, si vous achetez une puce tierce, vous vouliez vérifier qu’elle fait réellement ce qu’elle dit, et qu’elle a une chaîne d’approvisionnement sécurisée définie. Parce qu’à un moment donné, comme vous le dites, des robots vont concevoir ces puces. Vous devez vous assurer que les robots le font de manière très sécurisée, de sorte que vous puissiez valider du début à la fin et les résultats que vous obtenez ou que vous obtenez. Mais cela semble être la bonne voie à suivre !

RW : Le simple fait de rassembler ces éléments en 2D à partir de deux fonderies différentes sur deux côtés différents du fil, pour créer un cas d’utilisation différent et unique, est un début. Je pense qu’y arriver n’arriverait jamais si les gens ne se réunissent pas.

IC : Donc dans OCP, le O signifie Open. Mais pour faire partie de l’OCP, vous devez payer pour être membre. Mais toutes les réunions pour tout semblent être en ligne, donc tout le monde peut les regarder, et elles sont toutes répertoriées sur le site Web d’OCP. Alors, que signifie exactement « Ouvrir » ?

RW : C’est une bonne question. Pour moi, « Open » concerne le matériel ouvert, n’est-ce pas ? Il s’agit de créer des spécifications que n’importe qui peut acquérir, que ce soit Quanta, Foxconn, Wiwynn – n’importe qui peut acquérir et produire. [Open hardware is] aidant à garantir une plus grande cohérence grâce à la modularité de l’ordinateur lui-même. Mais même avec des opérations « à grande échelle », nous devons penser aux solutions de gestion et de sécurité dans cet espace de domaine. Donc pour moi, Open concerne les spécifications qui sont apportées, par rapport à la participation.

Maintenant, la Fondation doit payer et administrer les groupes de travail, et s’assure que ceux-ci se produisent. Portant mon chapeau OCP, je dirais que c’est une somme assez minime pour ce qu’il fait dans la communauté ! Nous avons également des sommets et tous nos différents événements collaboratifs. Mais encore une fois, cette partie monétaire ne concerne pas spécifiquement la communauté qu’elle sert et qui stimule la technologie et les solutions ouvertes. Je veux dire que n’importe qui peut s’impliquer et n’importe qui peut en tirer des leçons – je pense que le [cost] l’opportunité est de devenir membre votant de la communauté et d’être élu pour faire partie des différents groupes de travail ou comités d’incubation. Ces choses nécessitent une adhésion. Cette adhésion consiste vraiment à contribuer financièrement mais aussi à contribuer avec votre temps – les membres doivent en fait faire des contributions [as part of the fee]. C’est fait afin de s’assurer que vous êtes bien écouté, mais aussi engagé à conduire ces contributions.

IC : On dirait que vous ne pouvez pas vraiment être un membre passif dans ce sens – vous devez absolument être impliqué.

RW : Impliqué quelque part ! Il existe certainement des groupes de travail particuliers qui peuvent ne pas vous intéresser, mais l’on s’attend à ce que ce soit une communauté très active. Quand j’ai rejoint le conseil d’administration, je me souviens encore de Mark Roenigk, l’ancien président, me disant que nous étions un conseil de travail et que l’on s’attendait à ce que vous fassiez avancer les choses. Il m’a dit voici comment mettre en place un réseau de soutien, pour pouvoir le faire aussi longtemps – et j’ai pris des notes, je ne peux pas le faire moi-même, il n’y a aucun moyen.

IC : Par rapport à ce que je pense que la plupart de nos lecteurs pourraient interagir avec OCP, c’est le type standard de conception de rack de serveur OCP. Je pense que vous avez mentionné Olympus plus tôt, ce genre de volonté d’avoir des serveurs plus efficaces, aidant au refroidissement et à la densité. Les spécifications d’un serveur OpenRack OCP actuellement, je pense que la version trois, sont plus larges qu’un serveur standard et les racks sont légèrement plus hauts. C’est complètement différent de la façon dont la plupart du temps nous regardons les systèmes d’entreprise ! Alors pourquoi l’industrie n’est-elle pas passée à ce que suggère l’OCP, et pourquoi est-elle restée en quelque sorte dans sa voie ? Comme je le dis, car vous travaillez pour Intel, et les partenaires d’Intel vendent beaucoup de ces systèmes classiques !

RW : OpenRack a donc commencé ce facteur de forme de conception, en tant que 21 pouces au lieu de 19, pour un type très spécifique de prise unique, mais une conception super dense. C’est une conception phénoménale, et OpenRack continue dans l’écosystème. Mais ce n’est pas la seule taille de rack certifiée OCP. Donc, si vous regardez le mont Olympe, il s’agissait d’un facteur de forme de 19 pouces et d’une configuration de serveur standard. Vous verrez les deux, et des entreprises comme Google apportent également des contributions de 19 pouces. Ainsi, le facteur de forme OpenRack est une norme conforme, mais il n’est pas nécessairement vrai que chaque contribution sur le marché doit adhérer à ce facteur de forme OCP d’origine. Il s’agissait à l’origine de la création par Facebook d’un design très unique, à très faible PUE et à haute densité. Facebook était l’un des membres fondateurs d’OCP, et j’adore ce qu’ils ont fait là-bas.

Il y a beaucoup de gens différents dans OCP, et la norme Open 19 a commencé parce que les gens ne comprenaient pas pourquoi Facebook avait fait cette chose étrange de 21 pouces. Il y a toutes sortes de conversations à ce sujet. OCP a alors décidé d’adopter également le 19 pouces. Donc, vous savez, je pense que cela a été un voyage intéressant car une grande partie des conceptions originales étaient des contributions d’hyperscalers et en partenariat pour leur environnement spécifique. Mais alors que la communauté s’est transformée en Telcos, en plus d’entreprises, et que la composition du conseil d’administration a changé, comme avec Rackspace, les gens y pensent différemment. Il y a donc davantage d’expansion dans les facteurs de forme qui sont disponibles et qui évolueront au fur et à mesure que l’industrie évolue.

IC : OCP recherche-t-il activement des technologies qu’il pense qu’il devrait intégrer dans certaines de ses conceptions de standards ouverts ? Ou comptez-vous sur les entreprises dotées de ces technologies pour faire partie d’OCP ?

RW : C’est une excellente question. Quand je suis arrivé au conseil d’administration, j’ai eu une question très similaire – « Alors, comment ça marche ? » Je sais ce que nous faisons, je sais à quoi nous pensons, et c’est un processus assez proactif de notre objectif. Mais comment fonctionne une nouvelle adhésion ? Comment fonctionnent les nouvelles initiatives ? ». Donc, en tant que conseil d’administration, nous nous sommes assis et avons passé des jours et des jours ensemble (virtuellement, parce que c’était pendant la pandémie), pour trouver des réponses à la direction que prend l’industrie. Nous nous sommes demandés, ainsi qu’à nos membres, quelles seraient, selon nous, les futures initiatives du monde : les calculs deviennent de plus en plus hétérogènes, les données sont de plus en plus désagrégées et la durabilité est incroyablement sous-estimée. Nous avons en quelque sorte essayé d’analyser à la fois les points faibles – nos différents objectifs sur l’industrie, ainsi que les changements d’opportunité. Nous nous sommes ensuite rapportés l’un à l’autre.

De ce processus, nous avons développé le framework OCP 2.0, que nous sommes en train de déployer. Répondre au marché d’aujourd’hui, c’est l’OCP traditionnel. C’est ce que nous avons toujours fait, avec la modularité à l’échelle des opérations, l’augmentation de la durabilité, et c’est un pilier majeur pour répondre au marché aujourd’hui. Mais je pense que nous sommes déjà en retard, franchement.

Ensuite, dans l’espace des solutions intégrées, si vous pensez à combien d’argent et de temps les différents fournisseurs dépensent juste pour certifier différentes solutions, telles que les certifications SAP ou s’assurer que vSphere s’exécute correctement dans toutes les différentes configurations – c’est un temps énorme pour l’industrie. OCP 2.0 explique comment nous pouvons le faire mieux, plus rapidement et plus fort.

Ensuite, l’autre aspect est, encore une fois, la compréhension de l’avenir. L’avenir sera plus hétérogène, plus désagrégé, et toutes ces différentes technologies doivent être en place. Pour prendre un exemple, l’optique doit être développée, non seulement du point de vue du commutateur de réseau qui est bien couvert, mais au niveau du silicium et de la photonique intégrée pour une intégration au niveau des nœuds. Quand le cuivre (la solution établie) perd-il ? Il y a un moment où nous devrons apporter ces changements, et ce sera l’intégration des puces. Nous demandons comment nous allons nous assurer que les modules optiques peuvent être intégrés aux systèmes de refroidissement avancés – la lumière a un comportement différent, alors comment pouvons-nous nous assurer que nous construisons quelque chose qui fonctionnera réellement ?

Vous savez, dans tous ces environnements différents, l’optique était un grand domaine d’intérêt pour Intel, et nous sommes en train de semer l’innovation future ainsi que des initiatives de silicium ouvertes. Comprendre toutes les différentes dynamiques qui se produisent dans l’industrie, qu’il s’agisse de notre IDM 2.0, qu’il s’agisse d’acquisitions clés qui se sont produites pour répondre à l’écosystème, ou d’une consolidation générale, de moins de fonderies disponibles dans le monde ou de toutes les différentes puces d’IA que vous ‘ comme nous l’avons mentionné plus haut – ces domaines nécessitent de plus en plus de partenariats à tous les niveaux. Chez Intel, nous nous concentrons sur de nombreuses couches, mais pas toutes ! Ensuite, nous produisons un produit, quelqu’un d’autre fabrique un produit et nous utilisons tous des normes telles que PCIe ou OAM pour travailler ensemble. Je veux dire que la nouvelle norme CXL consiste à avoir une compréhension fondamentale du TLB sur un appareil qui n’est pas le mien !

J’ai donc mentionné l’optique avec refroidissement, mais refroidissement n’importe où – il s’agit de la façon dont nous pensons au refroidissement à la périphérie dans ces minuscules installations de colocation, par rapport au refroidissement dans une situation à plus grande échelle. Si nous revenons au début – HPC a inventé ce genre de choses. Il y avait des aquariums, des assiettes froides et toutes sortes de choses sympas qui se sont réunies. L’OCP concerne la façon dont nous nous assurons que chacune de ces choses n’est pas un nouveau projet de recherche qui prend deux ans et demi, mais peut devenir une façon de penser la marchandise. Je ne sais pas pour vous, mais j’ai grandi en aimant Fry’s Electronics, et je me souviens encore de ce vieux système de jeu avec une solution de refroidissement par immersion qui était vraiment une sorte de solution de plaque froide, où il passait par l’avant, et c’était tellement cool, et ça s’est allumé, et j’ai juste pensé que c’était la chose la plus cool que j’aie jamais vue. Nous avons besoin de quelque chose comme un serveur équivalent, peut-être sans les lumières (Ian : RVB ?), mais il doit être facile pour nous de tirer parti de ces technologies, car fondamentalement, cela rendra notre empreinte énergétique globale dans cette industrie plus efficace et plus efficace pour répondre à l’incroyable demande qui existe. C’est donc nourrir l’innovation future, c’est ce que nous voulons faire. Nous avons beaucoup d’aspirations, vous savez, nous devions le faire.

IC : J’allais parler de la Future Technologies Initiative, mais je pense que vous en avez essentiellement parlé. Fantastique!

RW : Ce qui est intéressant à propos de celui-ci, c’est qu’il s’agissait d’une initiative communautaire – le Future Technology Symposium a commencé avec la communauté, puis le conseil l’a rendu officiel. Nous avons maintenant établi une bonne correspondance entre ce qui figurait déjà dans les flux de travail de la Future Technologies Initiative, car cela a commencé fin 2019, et ce que le conseil d’administration a décidé [should be other features under that umbrella]. Mais Future Technologies est intéressante car elles concernent davantage les modèles de service, comme l’organisation du modèle de service cloud, ou un modèle matériel d’IA, et un mode de conception de code logiciel. Il s’agit de reconnaître que l’espace de domaine du calcul hétérogène existe, car à l’avenir, vous ne pourrez plus exécuter une solution de calcul générique à usage général qui n’est pas pleinement consciente du logiciel qui s’exécute dessus. Il doit également répondre aux besoins de l’IA, n’est-ce pas ? Nous avons également une mémoire définie par logiciel, et j’ai déjà fait allusion à CXL et à ce qui va s’y passer en termes de modèles d’appareils. C’est un modèle d’appareil complètement différent de tout ce avec quoi nous avons grandi avec des hypothèses pour les E/S.

L’industrie est juste, vous savez, c’est incroyable. Je veux dire, c’est pourquoi j’y suis !

Un grand merci à Rebecca et son équipe pour leur temps.
Merci également à Gavin pour la transcription.