La semaine dernière, Apple a fait l’actualité de l’industrie en annonçant de nouveaux produits Mac basés sur la nouvelle puce SoC Apple Silicon M1 de la société, marquant le premier pas d’une feuille de route planifiée sur 2 ans pour passer des processeurs x86 basés sur Intel au propre en interne de la société. microprocesseurs conçus fonctionnant sur le jeu d’instructions Arm.

Lors du lancement, nous avions préparé un article détaillé basé sur la puce Apple A14 déjà associée de la société, trouvée dans les téléphones iPhone 12 de nouvelle génération. Cela inclut une plongée microarchitecturale assez approfondie dans les nouveaux cœurs Firestorm d’Apple qui alimentent à la fois l’A14 et le nouveau Apple Silicon M1, je recommanderais une lecture si vous n’en avez pas encore eu l’occasion:

Depuis quelques jours, nous avons pu mettre la main sur l’un des premiers appareils Apple Silicon M1: la nouvelle édition Mac mini 2020. Alors que dans notre article d’analyse de la semaine dernière, nous avions basé nos chiffres sur l’A14, cette fois-ci, nous avons mesuré les performances réelles sur la nouvelle conception à plus forte puissance. Nous n’avons pas eu beaucoup de temps, mais nous vous apporterons les points de données clés pertinents pour le nouvel Apple Silicon M1.

Apple Silicon M1: noyaux Firestorm à 3,2 GHz et ~ 20-24 W TDP?

Lors de l’événement de lancement, une chose qui manquait généralement à la mode Apple dans la présentation était les détails réels sur les fréquences d’horloge de la conception, ainsi que son TDP qu’il peut maintenir à des performances maximales.

Nous pouvons confirmer que dans les charges de travail monothread, les cœurs Firestorm d’Apple cadencent désormais à 3,2 GHz, soit une augmentation de 6,66% par rapport à la fréquence 3 GHz de l’Apple A14. Dans les charges de travail multithreads, nous soupçonnons que les cœurs ont une horloge dure jusqu’à 3 GHz, mais nous n’avons pas été pleinement en mesure de le confirmer au moment de la rédaction.

Outre les quatre cœurs Firestorm performants, le M1 comprend également quatre cœurs Icestorm qui visent une faible puissance de ralenti et une efficacité énergétique accrue pour un fonctionnement alimenté par batterie. Les 4 cœurs de performance et 4 cœurs d’efficacité peuvent être actifs en tandem, ce qui signifie qu’il s’agit d’un SoC à 8 cœurs, bien que le débit des performances sur tous les cœurs ne soit pas identique.

La plus grande question lors de l’annonce était la consommation d’énergie de ces modèles. Apple avait présenté plusieurs graphiques comprenant les axes de performances et de puissance, mais nous manquions de données de comparaison pour parvenir à une conclusion appropriée.

Comme nous avions accès au Mac mini plutôt qu’à un Macbook, cela signifiait que la mesure de la puissance était plutôt simple sur l’appareil car nous pouvions simplement brancher un compteur à l’entrée CA de l’appareil. Il est à noter avec un énorme avertissement que, parce que nous mesurons la puissance murale CA ici, les chiffres de puissance ne sont pas directement comparables à ceux des appareils alimentés par batterie, car l’alimentation du Mac mini entraînera une perte d’efficacité supérieure à celle des autres les SoC mobiles, ainsi que les chiffres TDP édités par des éditeurs contemporains comme Intel ou AMD.

Il est particulièrement important de garder à l’esprit que le chiffre de ce que nous rappelons habituellement comme TDP dans les processeurs n’est en fait qu’un sous-ensemble des chiffres présentés ici, car au-delà du SoC, nous mesurons également la DRAM et la régulation de tension, ce qui n’est pas inclus dans les chiffres TDP ni dans la lecture de la puissance de votre package typique sur un ordinateur portable.

Alimentation du périphérique CA Apple Mac mini (Apple Silicon M1)

En commençant avec un Mac mini inactif dans son état par défaut lorsqu’il est inactif lorsqu’il est allumé, tout en étant connecté via HDMI à un moniteur 2560p144, Wi-Fi 6 et une souris et un clavier, nous constatons une puissance totale de l’appareil à 4,2 W. Étant donné que nous mesurons la puissance CA dans l’appareil, ce qui peut être assez inefficace à faible charge, cela a beaucoup de sens et représente un excellent chiffre.

Ce chiffre de ralenti sert également de base pour les mesures suivantes où nous calculons la «puissance active», c’est-à-dire notre méthodologie habituelle de prise de puissance totale mesurée et de soustraction de la puissance de ralenti.

Pendant les charges de travail moyennes à un seul thread sur les cœurs Firestorm à 3,2 GHz, comme la compilation de code GCC, nous constatons que la puissance de l’appareil atteint 10,5 W avec une puissance active d’environ 6,3 W. Le chiffre de puissance active est tout à fait conforme à ce que nous attendons d’un noyau Firestorm plus cadencé, et est extrêmement prometteur pour Apple et le M1.

Dans les charges de travail qui sont plus lourdes en DRAM et qui entraînent donc une pénalité de puissance plus importante sur les 16 Go de mémoire DRAM 128 bits de classe LPDDR4X sur le Mac mini, nous voyons la puissance active passer à 10,5 W. Déjà avec ces chiffres, le nouveau M1 est peut-être impressionnant et présente moins d’un tiers de la puissance d’un processeur mobile Intel haut de gamme.

Dans les scénarios multithreads, la puissance dépend fortement de la charge de travail. Dans les charges de travail gourmandes en mémoire où l’utilisation du processeur n’est pas aussi élevée, nous constatons une puissance active de 18 W, allant jusqu’à environ 22 W dans les charges de travail moyennes et culminant autour de 27 W dans les charges de travail lourdes de calcul. Ces chiffres sont généralement ce que vous aimeriez comparer aux «TDP» d’autres plates-formes, même si, encore une fois, pour obtenir une comparaison pommes-pommes, vous devez soustraire une partie des frais généraux mesurés sur le Mac mini ici – mon la meilleure estimation serait une plage de 20 à 24 W.

Enfin, du côté du GPU, nous constatons une consommation d’énergie inférieure de 17,3 W dans GFXBench Aztec High. Cela contiendrait une plus grande quantité de puissance DRAM, de sorte que la consommation d’énergie du GPU d’Apple est définitivement extrêmement faible, et bien inférieure à la puissance de crête que les processeurs peuvent tirer.

Différences de mémoire

Outre les cœurs supplémentaires des processeurs et du GPU, l’un des principaux facteurs de performance du M1 qui diffère de l’A14 est le fait qu’il fonctionne sur un bus mémoire de 128 bits plutôt que sur le bus mobile 64 bits. Sur 8 canaux de mémoire 16 bits et sur une mémoire de classe LPDDR4X-4266, cela signifie que le M1 atteint un pic de bande passante mémoire de 68,25 Go / s.

En termes de latence de la mémoire, nous constatons une réduction (plutôt attendue) par rapport à l’A14, mesurant 96ns à 128 Mo de profondeur de test aléatoire complète, contre 102ns sur l’A14.

Il convient également de noter le cache L2 de 12 Mo des cœurs de performance, bien qu’ici, il semble qu’Apple continue de partitionner la quantité qu’un seul cœur peut utiliser, car nous constatons toujours une augmentation de la latence après 8 Mo.

Le M1 contient également un grand cache SLC qui devrait être accessible par tous les blocs IP de la puce. Nous ne sommes pas exactement certains, mais les résultats des tests se comportent beaucoup comme sur l’A14 et nous supposons donc qu’il s’agit d’un morceau de cache similaire de 16 Mo sur le SoC, car certains modèles d’accès s’étendent au-delà de celui de l’A14, ce qui est logique étant donné le plus grand L2.

Un aspect que nous n’avons jamais vraiment eu l’occasion de tester est la qualité exacte des cœurs d’Apple en termes de bande passante mémoire. À l’intérieur du M1, les résultats sont révolutionnaires: un seul Firestorm réalise des lectures de mémoire jusqu’à environ 58 Go / s, avec des écritures mémoire de 33 à 36 Go / s. Plus important encore, les copies de mémoire arrivent entre 60 et 62 Go / s, selon que vous utilisez des instructions scalaires ou vectorielles. Le fait qu’un seul cœur Firestorm puisse presque saturer les contrôleurs de mémoire est stupéfiant et quelque chose que nous n’avons jamais vu auparavant dans une conception.

Étant donné qu’un cœur est capable d’utiliser presque toute la bande passante mémoire, le fait d’avoir plusieurs cœurs accédant aux choses en même temps n’augmente pas réellement la bande passante du système, mais en fait, en raison de la congestion, réduit la bande passante globale effective obtenue. J’ai particulièrement noté cela lors de l’utilisation des cœurs de performance en tandem avec les cœurs d’efficacité dans les copies de mémoire – 4 gros cœurs atteignent un pic à 59 Go / s de copies de mémoire, mais dès qu’un noyau d’efficacité est ajouté, cela se réduit à 49 Go / s. jusqu’à 46 Go / s lorsque tous les cœurs sont actifs, indiquant un goulot d’étranglement dans le système quelque part.

Au-delà de l’augmentation de la vitesse d’horloge, de l’augmentation de L2, cette augmentation de la mémoire est également très susceptible d’aider le M1 à différencier ses performances au-delà de celles de l’A14, et à offrir une concurrence contre les opérateurs historiques x86.