La première incursion d’Intel dans le 14 nm a été avec son portefeuille de produits Broadwell. Il a été lancé sur le marché mobile avec une variété de produits, mais l’offre de bureau en 2015 était extrêmement limitée – seuls deux processeurs de bureau à socket ont jamais été vendus au détail, et en quantités limitées. Ceci malgré les utilisateurs qui attendent une forte mise à jour 14 nm de Haswell, mais aussi à cause de la façon dont Intel a construit la puce. A côté du processeur se trouvait 128 Mo d’eDRAM, une sorte de cache supplémentaire entre le CPU et la mémoire principale. Cela a fait beaucoup de bruit et nous testons à nouveau le matériel en 2020 pour voir si le concept d’eDRAM en vaut toujours la peine.

eDRAM: Le Sauveur

Ces dernières années, Intel a poussé dur sa tristement célèbre «Pyramide d’Optane», conçue pour présenter le compromis entre de petites quantités de mémoire cache proches du processeur et une faible latence, vers le grand stockage hors ligne offert à un moment de ping important. Lorsqu’un processeur a besoin de données et d’instructions, il navigue dans cette hiérarchie, dans le but d’avoir autant de ce qui est nécessaire au plus près du CPU (et donc aussi vite) que possible.

Les processeurs x86 modernes traditionnels contiennent trois niveaux de caches, chacun augmentant en taille et en latence, avant d’atteindre la mémoire principale, puis vers le stockage. Ce que fait eDRAM, c’est ajouter une quatrième couche entre le dernier cache L3 sur le processeur. Alors que le L3 est mesuré en mégaoctets à un chiffre, l’eDRAM est dans les 10s-100s de mégaoctets et la DRAM mesure en gigaoctets. Alors que le cache L3 est situé sur la puce du processeur et que la latence est faible, l’eDRAM a une latence légèrement plus élevée et la mémoire principale se trouve sur des modules en dehors du socket du processeur à la latence la plus élevée. Intel a activé une couche «eDRAM» en tant que morceau de silicium séparé avec le package de processeur, jusqu’à 128 Mo, offrant une latence et une bande passante entre la L3 et la mémoire principale. Ce nouveau morceau de silicium a été construit sur le processus de fabrication d’Intel IO 22 nm, plutôt que sur un SoC 22 nm ou 14 nm, en raison de la capacité d’Intel à piloter des fréquences plus élevées de 22 nm à l’époque.

En conservant l’eDRAM comme un morceau de silicium séparé, cela a permis à Intel d’ajuster les niveaux de stock en fonction de la demande – si le produit échouait, il y aurait encore beaucoup de puces de processeur plus petites pour l’emballage.

Sur les processeurs Broadwell, cela a abouti à une couche d’accès à la mémoire avec les performances suivantes:

Structure du cache Broadwell
AnandTech Taille Type Latence Bande passante
Cache L1 32 Ko / cœur Privé 4 temps 880 Gio / s
Cache L2 256 Ko / cœur Privé 12 cycles 350 Gio / s
Cache L3 6 Mo partagé 26 à 50 cycles 175 Gio / s
eDRAM 128 Mo partagé <150 cycle 50 Gio / s
DDR3-1600 Jusqu’à 16 Gio partagé 200+ cycle 25,6 Gio / s

La vue simpliste de cette eDRAM était celle d’une couche de cache de «  niveau 4  » – c’est finalement ainsi qu’elle nous a été décrite à l’époque, la couche eDRAM agissant comme un cache de victime acceptant les expulsions de L3 mais activée via un système de balises fantômes accessible via le L3. Les données nécessaires à partir de l’eDRAM devraient être replacées dans L3 avant d’aller ailleurs, y compris les graphiques ou l’autre IO ou la mémoire principale. Pour ce faire, ces balises fantômes nécessitaient environ 0,5 Mio / cœur du cache L3, réduisant l’utilité de la L3 en échange d’une latence plus faible s’étendant jusqu’à 128 Mio. C’est pourquoi Broadwell ne disposait que de 1,5 Mio / cœur de cache L3, au lieu du plein 2,0 Mio / cœur que le coup de dés suggérait.


Disposition Broadwell eDRAM

L’eDRAM peut être fractionnée dynamiquement à la volée pour les requêtes CPU ou GPU, ce qui lui permet d’être utilisée en mode CPU uniquement lorsque les graphiques intégrés ne sont pas utilisés, ou complète pour le GPU lorsque la mise en cache de texture est requise. L’interface nous a été décrite à l’époque comme une interface série étroite à double pompage capable d’une bande passante bidirectionnelle de 50 Gio / s (agrégat de 100 Gio / s), fonctionnant à un pic de 1,6 GHz.

Dans cette configuration, en combinaison avec les pilotes graphiques, permettait un contrôle plus granulaire de l’eDRAM, suggérant que le système pouvait tirer à la fois de l’eDRAM et de la mémoire DDR simultanément, donnant potentiellement une bande passante mémoire maximale de 75,6 Gio / s, à un moment où les cartes graphiques de milieu de gamme telles que la GT650M avaient une bande passante d’environ 80 Gio / s.

La deuxième génération de la conception eDRAM, telle que trouvée dans Skylake et les futurs processeurs, a déplacé l’eDRAM hors du champ d’application du cache L3 et l’a activée en tant que tampon purement transparent entre l’agent système et le contrôleur de mémoire DRAM principal, le rendant invisible. aux accès CPU / GPU ou aux accès IO. Cela permet d’accéder au cache par toutes les demandes DRAM, ce qui permet une cohérence totale (bien que les pilotes permettent toujours de le contourner pour les textures plus grandes que la taille de l’eDRAM), ainsi que la suppression de la réduction du cache L3 de 0,5 Mio / cœur pour les balises shadow.


Disposition Skylake eDRAM

Il y a des arguments à faire pour savoir si l’eDRAM en tant que cache victime L4 ou en tant que tampon transparent pour DRAM est la bonne direction à prendre – en tant que cache victime, Intel a déclaré qu’il autorisait un taux de réussite du cache supérieur à 95%, mais dans un certain nombre de scénarios afin d’obtenir les meilleures performances, il a fallu une intervention logicielle, et beaucoup de logiciels n’étaient pas au courant d’une telle configuration. En tant que tampon, il a permis une intégration transparente dont tous les logiciels peuvent tirer parti, mais il n’est pas nécessairement aussi optimisable qu’un cache de victime L4.

«Go Big or Go Home»

Pour les produits eDRAM de Broadwell, Intel a activé une implémentation de 128 Mio, soit quatre fois plus que sur le silicium Xbox One à l’époque. À l’époque, Intel avait déclaré qu’un cache de victimes eDRAM L4 de 32 Mio permettait des taux de succès substantiels, mais la société souhaitait que la conception soit à l’épreuve du temps ainsi qu’une option à long terme dans la pile de produits d’Intel, elle a donc été doublée, puis doublée à nouveau. être sûr. Le terme était «aller grand ou rentrer à la maison», et dans notre examen initial des premiers produits Broadwell eDRAM, Anand a noté qu’il était très rare de voir Intel être aussi «libéral» avec la zone de filière.

Le silicium eDRAM a été construit sur le processus SoC 22 nm, comme mentionné, un nœud derrière les conceptions de processeurs de pointe d’Intel. La conception de 128 Mio est arrivée avec une taille de matrice de ~ 84 mm2, contribuant à plus d’un tiers de la surface totale de la matrice utilisée dans le boîtier de processeur quadricœur Broadwell Iris Pro 14 nm (182 mm2 + 84 mm2 = 266 mm2).

Dans la génération suivante de Skylake, des modèles eDRAM de 64 Mio ont également été proposés.

Sous certaines contraintes, le système pourrait économiser de l’énergie en désactivant complètement le contrôleur de mémoire principal si toutes les données requises sur une période donnée sont disponibles dans l’eDRAM. Dans le cadre du lancement initial de Broadwell, Intel a décrit la consommation d’énergie supplémentaire de l’eDRAM comme étant inférieure à 1 watt au ralenti, atteignant un pic de 5 watts lorsqu’il fonctionne à pleine bande passante. En fin de compte, cela signifie qu’au niveau de la puce, moins d’énergie est disponible pour les cœurs en cas de besoin, mais le compromis sera de meilleures performances dans des scénarios à mémoire limitée. L’alimentation est destinée à être suivie par le PCU intégré, ou l’unité de contrôle de l’alimentation, qui peut déplacer le budget d’alimentation entre le CPU, le GPU, l’eDRAM, selon les besoins des compteurs de performance ou des thermiques.

Dans le cadre de cette revue, nous sommes en mesure de donner au moins un aperçu de ce nombre. Lors de nos tests, nous avons vu les numéros de puissance des packages inactifs pour les processeurs suivants:

  • Core i7-4790S (22 nm Haswell 4 cœurs 6 MiB L3): 6,01 W
  • Core i7-5775C (14 nm Broadwell 4 cœurs 6 MiB L3) 9,71 W
  • Core i7-6700K (14 nm Skylake 4 cœurs 8 MiB L3): 6,46 W

Ces chiffres suggèrent que l’effet de l’eDRAM, au ralenti, s’apparente davantage à 3,3-3,7 watts, et non au sous 1 watt suggéré par Intel. Peut-être que cette valeur inférieure à 1 watt était plus pour les processeurs mobiles? Lorsqu’ils s’exécutent à pleine charge en régime permanent, les processeurs signalent les valeurs de puissance de leur TDP, ce qui ne permet aucune analyse.

Le flop eDRAM de Broadwell?

Intel s’était quelque peu reculé dans un coin avec son lancement Broadwell. En raison des retards du processus 14 nm d’Intel à l’époque, la société avait décidé de suivre son populaire processeur haut de gamme 22 nm Core i7-4770K basé sur Haswell avec le lancement d’un processeur «  Devil’s Canyon  » plus regroupé, le Core i7-4790K. . Ce processeur offrait +500 MHz, ce qui représentait à l’époque une augmentation substantielle des performances, malgré le lancement des processeurs à 12 mois d’intervalle.

Examen du Devil’s Canyon: Intel Core i7-4790K et i5-4690K

Parce que Broadwell «n’était pas prêt», Devil’s Canyon a été conçu pour être une mesure provisoire pour apaiser les consommateurs toujours affamés d’Intel et les passionnés de haut de gamme. Du point de vue du consommateur, Devil’s Canyon était au moins un plus, mais il a donné à Intel un mal de tête important.

En augmentant considérablement la vitesse d’horloge de son principal processeur grand public, Intel avait maintenant une colline à gravir – l’objectif d’une nouvelle génération de produits est qu’elle devrait être meilleure que ce qui était auparavant. En améliorant son meilleur précédent pour être encore meilleur, cela signifiait que la prochaine génération devait faire encore plus. Cela est difficile à faire lorsque le nœud de processus à venir ne fonctionne pas correctement. Cela signifiait qu’au pays du processeur de bureau, la réticence d’Intel à lancer Broadwell avec eDRAM était pénible à voir, et l’entreprise a dû changer de stratégie.

Intel a presque fait de Broadwell pour les ordinateurs de bureau un lancement silencieux, avec très peu de fanfare. Après l’annonce, il n’y avait presque plus de stock sur les tablettes. À l’époque, Intel n’a pas échantillonné les processeurs pour examen – nous avons pu obtenir des unités d’autres sources quelques jours à l’avance pour notre couverture du jour de lancement.

Examen des ordinateurs de bureau Intel Broadwell: Core i7-5775C et Core i5-5675C testés (partie 1)
La revue Intel Broadwell, partie 2: Overclocking, IPC et analyse générationnelle

En lançant Broadwell Core i7 en tant que processeur 65 W plutôt qu’en tant que processeur 84-88 W, cela signifiait que la basse fréquence Broadwell n’était pas nécessairement une comparaison directe avec Devil’s Canyon. Il est sorti de la porte avec un déficit de fréquence, mais la présence de l’eDRAM permettrait des victoires très prudentes dans des scénarios à mémoire limitée, et peut-être plus important encore, dans le jeu.

Finalement, le lancement retardé du bureau Broadwell le 2 juinnd 2015 a été très rapidement suivie du lancement de Skylake le 5 aoûte 2015, et le meilleur processeur Core i7 était encore une fois une unité de plus de 88 watts et un véritable concurrent à l’identique de Devil’s Canyon. Skylake a également activé la DDR4 sur le marché, ce qui était une mise à niveau significative sur le front de la mémoire.

Malheureusement, Intel avait une autre énigme – les anciens processeurs Broadwell, en raison de l’eDRAM, offraient en fait des performances de jeu légèrement meilleures que Skylake! Cela dépendait du titre, de la résolution et de la qualité, et certains pourraient dire qu’il n’y avait que quelques points de pourcentage, mais pour ceux qui voulaient le meilleur du jeu, Skylake n’était pas nécessairement la réponse. Pour à peu près toutes les tâches du processeur, Skylake était la réponse.

Broadwell toujours disponible aujourd’hui

En fin de compte, l’incursion d’Intel dans les processeurs Broadwell à socket avec eDRAM a été un moment décisif dans sa gamme de produits Core axés sur les consommateurs. À l’époque, les processeurs étaient difficiles à trouver à la vente, et ont rapidement été vieillis par l’arrivée de Skylake et de la DDR4. Il y avait six processeurs Broadwell différents pouvant être connectés, deux produits Core grand public et quatre composants Xeon E3.

Processeurs sockets Intel Broadwell eDRAM
AnandTech Noyaux
Fils
Base
Fréq
Turbo
Fréq
IGP IGP
Fréq
TDP
Consumer Core
i7-5775C 4C / 8T 3300 3700 48 UE 1150 65 W
i5-5675C * 4C / 4T 3100 3600 48 UE 1100 65 W
* Parfois répertorié comme Core i7-5675C car certains ES avaient une chaîne CPUID incorrecte
Entreprise Xeon E3 v4
E5-1285 v4 4C / 8T 3500 3800 48 UE 1150 95 W
E5-1285L v4 4C / 8T 3400 3800 48 UE 1150 65 W
E3-1270L v4 4C / 8T 3000 3600 45 W
E3-1265L v4 4C / 8T 2300 3300 48 UE 1050 35 W

Nous avons également pu examiner trois des Xeons à l’époque.

La revue Intel Broadwell Xeon E3 v4: 95W, 65W et 35W avec eDRAM

La plupart de ces processeurs sont en fait très faciles à acheter aujourd’hui. Le meilleur endroit pour les trouver est soit sur Aliexpress, soit sur eBay, pour aussi peu que 104 $.

Broadwell en 2020

Le point fort de ces processeurs était l’eDRAM haut débit, atteignant 50 Gio / s bidirectionnel, à un moment où la solution de mémoire DDR3-1600 en double canal ne pouvait offrir que 25,6 Gio / s. À un moment donné dans le futur, on s’attendrait à ce que la vitesse de la DRAM normale dépasse cette bande passante offerte, même si elle ne peut pas correspondre exactement à cette latence.

Nous avons en fait atteint cette marque très récemment.

  1. Le meilleur processeur Intel de qualité grand public est le Intel Core i9-10900K, offrant 10 cœurs jusqu’à un pic de 5,3 GHz, mais surtout le côté mémoire prend en charge officiellement la DDR4-2933, qui en mode double canal autoriserait 46,9 Gio / s.
  2. Les processeurs AMD Zen 2 actuels ont une fréquence de pointe prise en charge de DDR4-3200, qui en mode double canal permettrait une bande passante de 51,2 Gio / s.
  3. Les processeurs mobiles Tiger Lake d’Intel prennent en charge le LPDDR4X-4266, qui, une fois entièrement rempli, fournirait une bande passante de 68,2 Gio / s.
  4. Avec l’introduction de la DDR5 prévue dans les deux prochaines années, nous nous attendons à voir la DDR5-4800 comme un point d’entrée possible. Cela permettrait d’activer 38,4 Gio / s par canal 64 bits, ou 76,8 Gio / s dans une configuration grand public standard.

Il est peut-être difficile de comprendre le fait que ce n’est qu’en 2020 que nous faisons correspondre les niveaux de bande passante qui ont été activés en 2015 par l’ajout d’un simple morceau de silicium. Cela pourrait vous amener à vous demander pourquoi Broadwell était la seule famille de processeurs socket d’Intel à bénéficier de cette innovation – tous les futurs produits eDRAM étaient tous destinés aux appareils mobiles qui reposent sur des graphiques intégrés, malgré les avantages observés pour les configurations graphiques discrètes.

Il convient de noter que, étant donné que l’eDRAM offre un avantage de latence dans les accès mémoire de 6 Mo à 128 Mo, alors que nous approchons de la situation où un seul cœur a accès à 128 Mo de cache L3, cet avantage disparaîtrait également. Pour les processeurs grand public, nous n’en sommes pas encore là – alors que les processeurs Intel offrent jusqu’à 20 Mio (ou 24 Mio dans les futurs processeurs Tiger Lake 8 cœurs), les futurs processeurs Zen 3 d’AMD offriront un accès à 32 Mio de L3 pour chaque cœur. dans un CCX. Selon cette métrique, nous sommes encore très loin derrière.

Pour cette revue, parce que nous avons récemment testé les processeurs et graphiques quad-core Tiger Lake d’Intel, je voulais savoir exactement où Broadwell se situera finalement dans la hiérarchie des performances du processeur et des performances graphiques. Nous avons récemment annoncé une nouvelle référence et une nouvelle suite de jeux, et Broadwell est toujours l’un des produits intéressants à intégrer dans une nouvelle suite de tests.

Tous les tests de jeu intégrés (ainsi que les tests de jeu avec un RTX 2080 Ti) se trouveront sous les pages de jeu respectives.

Pages dans cette revue

  1. Analyse et concurrence
  2. Configuration des tests et #CPUOverload Benchmarks
  3. Consommation d’énergie
  4. Tests CPU: Bureau et Science
  5. Tests CPU: Simulation
  6. Tests CPU: rendu
  7. Tests CPU: codage
  8. Tests du processeur: tests hérités et Web
  9. Tests CPU: synthétiques
  10. Tests du processeur: SPEC
  11. Tests CPU: microbenchmarks
  12. Jeu: Tchernobylite
  13. Jeux vidéo: Civilization VI
  14. Jeux: Deus Ex: MD
  15. Jeux vidéo: Final Fantasy XIV
  16. Jeux vidéo: Final Fantasy XV
  17. Jeu: World of Tanks
  18. Jeu: Borderlands 3
  19. Jeu: F1 2019
  20. Jeu: Far Cry 5
  21. Jeu: Gears Tactics
  22. Jeu: GTA 5
  23. Jeux vidéo: Red Dead Redemption 2
  24. Jeu: Strange Brigade
  25. Conclusions et derniers mots