Outre les critiques, l’une des parties les plus visitées du site Web AnandTech est notre base de données de référence Bench. Au cours de la dernière décennie, nous y avons placé autant de données de référence que possible pour chaque échantillon sur lequel nous pouvons mettre la main: CPU, GPU, SSD, ordinateur portable et smartphone étant nos catégories clés. En tant qu’éditeur principal du processeur chez AnandTech, l’une de mes tâches est de maintenir la partie CPU de Bench, en m’assurant que les benchmarks sont pertinents et que les composants les plus récents sont testés avec des données de référence à jour autant que possible. Aujourd’hui, nous annonçons le début d’un projet Bench majeur avec notre nouvelle suite Benchmark, et des objectifs très ambitieux.

Qu’est-ce que Bench?

Un certain nombre de nos lecteurs réguliers connaissent Bench. Nous avons placé un lien pour y accéder facilement en haut de la page, bien que compte tenu de la profondeur du contenu qu’il contient, c’est une partie discrète d’AnandTech. Bench est la base de données centralisée dans laquelle nous plaçons toutes les données de référence que nous recueillons pour les processeurs, les graphiques, le stockage, les tablettes, les ordinateurs portables et les smartphones. En interne, Bench a de nombreuses utilisations, en particulier lors de la collecte de données d’examen pour générer nos graphiques d’examen, plutôt que de redessiner manuellement des ensembles de données complets pour chaque examen ou de garder les ensembles de données hors ligne.

Mais le plus grand avantage de Bench est soit de comparer de nombreux produits dans un seul benchmark, soit de comparer deux produits à travers tous nos tests de référence. Par exemple, voici les premiers résultats de notre test POV-Ray.

En son cœur, Bench est un outil de comparaison, avec la possibilité de mettre deux produits côte à côte peut être vital pour choisir celui dans lequel investir. Plutôt que de simplement comparer les spécifications, Bench fournit des données du monde réel, offrant une vérification indépendante de tiers. points de données. Contrairement aux références que d’autres entreprises qui investissent dans la vente du produit pourraient vous fournir, nous essayons de créer des références qui signifient réellement quelque chose, plutôt que de simplement lister les synthétiques.

Le but de Bench a toujours été une comparaison régressive, comparant ce que l’utilisateur a à ce que l’utilisateur pourrait envisager d’acheter. À la suite d’une décennie de données, cet écart générationnel de 3 à 5 ans d’informations de référence peut devenir vital pour quantifier réellement la quantité de mise à niveau qu’un utilisateur pourrait recevoir sur le processeur seul. Tout dépend des produits qui ont déjà des données de référence dans la base de données et de la pertinence des références par rapport au flux de travail (Web, bureau, rendu, jeux, tests de station de travail, etc.).

Banc: le début

Bench a été lancé il y a plus de dix ans par le fondateur d’AnandTech, Anand. Du côté CPU de la base de données, il a travaillé avec AMD et Intel pour obtenir un nombre raisonnable des derniers processeurs de la journée, puis a passé un bon été à les tester tous. Cela s’est produit lorsque Core 2 et Athlons dirigeaient le marché, avec un certain nombre de comparaisons intéressantes. La beauté de la base de données Bench est que toutes les données de la trentaine de processeurs testés par Anand existent toujours à l’époque, avec les principaux points de référence qui intéressaient l’industrie et le lectorat à l’époque.

Avec AMD et Intel fournissant les processeurs qu’ils ont fait, tester chaque processeur est devenu un point focal pour les données: il a permis aux utilisateurs de rechercher leur processeur exact, de le comparer à d’autres modèles de la même famille qui diffèrent sur le prix, ou de comparer celui qu’ils ont déjà un composant plus moderne qu’ils envisageaient d’acheter.

Au fil des années, Bench a été mis à jour avec tous les échantillons d’examen que nous avons pu obtenir et a eu le temps de passer en revue les repères. Cependant, quand une nouvelle famille de produits est lancée, nous avons rarement l’occasion de les tester tous – malheureusement, l’échantillonnage officiel va rarement au-delà d’un ou deux des produits haut de gamme, ou si nous avons de la chance, peut-être quelques-uns de plus. Bien que nous n’ayons jamais été en mesure de tester des piles complètes de processeurs de haut en bas, nous avons généralement été en mesure de couvrir les points forts d’une gamme de produits, et cela a toujours permis aux utilisateurs d’effectuer des comparaisons générales en utilisant les données et pour les utilisateurs souhaitant mettre à niveau. leurs composants de trois ans.

Deux facteurs principaux ont toujours empêché l’expansion de Bench.

Problème n ° 1 du banc: obtenir réellement le matériel

Premièrement, le fait de s’approvisionner en composants peut être un obstacle à l’obtention de données de référence. Si nous n’avons pas le produit, nous ne pouvons pas exécuter les benchmarks! Intel et AMD (et VIA, à l’époque) ont eu des structures différentes pour échantillonner leurs produits, en fonction de ce qu’ils veulent dire, du délai de sortie et de l’état du marché. D’autres facteurs peuvent inclure l’importance de certains transformateurs pour les finances d’une entreprise, ou le niveau de la relation entre nous et les fabricants. Intel et AMD ne travailleront avec des sites Web d’évaluation à quelque profondeur que ce soit si l’analyse est juste, et nos lecteurs (c’est vous) ne liront les données que si l’analyse était également impartiale.

En ce qui concerne les stratégies d’échantillonnage des médias de base, les entreprises peuvent généralement emprunter deux voies. La nature de l’industrie de la technologie dépend des relations avec la presse (RP), et la plupart des entreprises auront à la fois des services de relations publiques internes et sous-traiteront également les relations publiques locales à des entreprises spécialisées dans cette région. Selon le produit, l’échantillonnage peut avoir lieu soit directement auprès du fabricant, soit via l’équipe de relations publiques locale, et la stratégie d’échantillonnage sera prédéterminée à un niveau beaucoup plus élevé: combien de sites Web de médias doivent être échantillonnés, combien d’échantillons seront distribués. dans chaque région, etc. Par exemple, si un produit doit être échantillonné via un PR local uniquement, il ne peut y avoir que 3 à 5 unités pour plus de 15 supports technologiques, nécessitant que les échantillons soient déplacés lorsqu’ils ont été testés. Certains grands lancements, ou en fonction de la relation entre le média et le fabricant, seront gérés à partir de l’équipe PR globale interne de l’entreprise, où des échantillons sont fournis à perpétuité: essentiellement sur des prêts à long terme (qui pourraient être rappelés).

Pour les fabricants de processeurs x86, Intel et AMD sont les joueurs avec lesquels nous travaillons. Récemment, la politique officielle d’échantillonnage des supports d’Intel fournit le principal processeur haut de gamme avant la sortie du processeur, comme le i7-4770K ou le i7-6700K. En de rares occasions, l’une des parties les plus basses de la pile est fournie en même temps ou mise à disposition pour échantillonnage après la date de lancement. Par exemple, avec le dernier Comet Lake, nous avons été échantillonnés à la fois le i9-10900K et le i5-10600K, mais ce sont tous deux des processeurs overclockables à fort impact. Cela signifie généralement que s’il y a un processeur intéressant en bas de la pile, comme un i3-K ou un Pentium à faible coût, nous devons travailler avec d’autres partenaires pour obtenir un échantillon (tels que les fabricants de cartes mères, les intégrateurs de systèmes ou les OEM), ou l’acheter purement et simplement en interne.

Pour les processeurs AMD, comme cela a été démontré au cours des 4 à 5 dernières années, la société ne publie pas souvent une pile complète de processeurs à la fois. Au lieu de cela, les processeurs sont lancés par lots, AMD choisissant d’en faire deux ou trois tous les quelques mois. Par exemple, AMD a initialement lancé Ryzen avec les trois processeurs Ryzen 7, suivis de quatre processeurs Ryzen 5 quelques semaines plus tard et enfin de deux composants Ryzen 3. Avec les dernières générations d’AMD, en fonction du nombre de processeurs dans la pile finale de processeurs, AnandTech est généralement échantillonné pour la plupart, par exemple avec 1st Gen Ryzen où nous avons tous été échantillonnés. Auparavant, avec les processeurs Richland et Trinity, seule la moitié environ de la pile était initialement proposée pour examen, et moins de chances d’être échantillonnées pour les pièces de moindre valeur, ou certaines pièces étaient proposées par des équipes de relations publiques locales quelques mois après le lancement. AMD lance encore aujourd’hui des pièces OEM pour des régions spécifiques – elle a tendance à ne pas non plus échantillonner celles à presser, surtout si la presse n’est pas dans la région pour ce produit.

Avec certains processeurs, ils ciblent certaines organisations de médias qui accordent la priorité à différents éléments de test, ce qui crée un déséquilibre entre les médias et les processeurs. La plupart des fabricants classeront les médias avec lesquels ils travaillent par niveaux, les plus hauts obtenant un échantillonnage plus précoce ou un meilleur accès aux composants. La raison en est que si une entreprise échantillonnait tout le monde à chaque fois, tout à coup 5000 médias (et tous ceux qui souhaitent créer un blog de test de composants) se retrouveraient avec 10 à 25 produits à leur porte chaque année et ce serait un mammouth. tâche à organiser (pour peu de gain des points de vente avec moins de lecteurs).

Le concept de hiérarchisation n’est pas nouveau – il dépend de la portée du lectorat des médias, de la démographie et de la capacité à comprendre la nuance de ce qui est entre leurs mains. AMD et Intel ne peuvent pas tout échantillonner tout le monde, et parfois ils ont des marchés spécifiques à cibler, ce qui permettra également de se concentrer sur qui obtiendra quels échantillons. Un site Web axé sur les HTPC sans ventilateur, par exemple, ne serait pas un vecteur d’échantillonnage préféré pour les processeurs de classe de poste de travail. Chez AnandTech, nous couvrons un large éventail de sujets, formons des lecteurs et travaillons avec Intel et AMD depuis vingt ans. Dans l’ensemble, nous réussissons généralement bien en ce qui concerne l’échantillonnage des processeurs, bien qu’il y ait encore des limites – sortir et demander une pile de processeurs Xeon Gold de nouvelle génération ne sera probablement pas aussi simple qu’une expédition de nuit.

Problème n ° 2: la marche des temps

Le deuxième problème avec la base de données de référence est le calendrier et les points de référence. Cela se résume à la main-d’œuvre – combien de personnes exécutent les benchmarks et les délais pour lesquels les benchmarks que nous testons restent pertinents pour les segments de nos lecteurs intéressés par le matériel.

Prenons l’exemple des tests de cartes graphiques: les pilotes de GPU changent tous les mois et les jeux sont mis à jour tous les quelques mois (et les jeux auxquels les gens jouent changent également). Pour conserver un ensemble sain de données de référence, il faut retester 5 cartes graphiques par génération de fournisseur de GPU, 4 à 5 générations de lancements de GPU, de 3 à 4 partenaires de plateau différents, sur 6 à 10 jeux chaque mois à trois résolutions / paramètres différents par jeu (et tester chaque combinaison suffisamment pour être statistiquement précis). Cela prend du temps, des efforts importants et de la main-d’œuvre, et je suis étonné que Ryan ait pu faire tant de choses en peu de temps comme rédacteur en chef. La sélection des nombres les plus élevés de ces plages nous donne 5 (GPU) x 2 (fournisseurs) x 5 (générations) x 4 (partenaires de la carte) x 10 (jeux) x 3 (résolutions) x 4 (statistiquement significatif) résultats, ce qui vient à 24000 courses de référence, hors de la porte chaque mois, dans un scénario idéal. Vous pourriez être à mi-chemin et quelqu’un publie une mise à jour du pilote, rendant le reste des données pour rien. Cela ne se produit pas du jour au lendemain et cela pourrait sans doute être du travail pour au moins un employé à temps plein, sinon deux.

Du côté CPU de l’équation, la marche du temps est un peu plus lente. Alors que le nombre de processeurs à tester peut être plus élevé (plus de 100 pièces grand public au cours des dernières générations), le nombre de degrés de liberté est plus petit et la fréquence de nos cycles de rafraîchissement de référence de processeur peut être plus longue. Ces paramètres dépendent des mises à jour du système d’exploitation et des pilotes comme les tests GPU, mais cela signifie que certains benchmarks peuvent encore être pertinents plusieurs années plus tard avec la même base de système d’exploitation. Le code Fortran hérité de 30 ans, toujours utilisé, restera probablement le code Fortran hérité de 30 ans dans un proche avenir. Ou même des benchmarks comme CineBench R15 sont encore cités aujourd’hui, malgré le fait que le logiciel Cinema4D sur lequel il est basé soit plusieurs générations plus récent. Les tests du processeur finissent par être limités par les tests de jeu et dépendent des GPU modernes utilisés, des jeux testés, des résolutions pertinentes ou du moment où de nouveaux benchmarks entrent en jeu.

Lorsque Ryan reteste un GPU, il a un système d’exploitation fixe, un système prêt à l’emploi, met à jour les pilotes et remet le GPU dans l’emplacement. Préparer une nouvelle plate-forme CPU pour de nouveaux benchmarks signifie reconstruire le système complet, réinstaller le système d’exploitation, réinstaller la suite de benchmarks, puis la tester. Cependant, avec la bonne combinaison de matériel et de tests, un bon ensemble de données peut durer environ 18 mois sans mises à jour importantes. Le danger est que chaque fois qu’il y a une actualisation complète de la référence, qui tourne particulièrement autour des mises à jour des nouveaux systèmes d’exploitation. En raison de la façon dont les mises à jour du système d’exploitation et la planification avec la pile logicielle affectent le nouveau système d’exploitation, toutes les anciennes données ne peuvent pas être comparées et l’ensemble complet du matériel doit être retesté sur le nouveau système d’exploitation avec une suite de tests mise à jour.

Avec notre nouveau projet CPU Overload (stylisé comme #CPUOverload dans les titres de nos articles, parce que les médias sociaux sont cool?), L’objectif est de contourner ces deux inconvénients majeurs.

Qu’est-ce que #CPUOverload?

Les graines de ce projet ont été initialement semées il y a plusieurs années en 2016. Bien que j’aie ajouté nos données de référence à Bench depuis plusieurs années, je savais en quelque sorte que notre base de données Benchmark était un outil populaire, mais je ne savais pas vraiment à quel point c’était utilisé, ou plus précisément, sous optimisé, jusqu’à récemment, quand on m’a donné accès pour pouvoir fouiller dans nos données back-end.

Tous ceux qui recherchent un processeur veulent savoir à quel point celui qui les intéresse est bon et combien de performances ils obtiendront de leur ancienne partie. La lecture des critiques est bien, mais en raison du style et de l’applicabilité, seuls quelques processeurs sont directement comparés dans une critique à une partie différente, sinon la critique pourrait durer une centaine de pages. Il y a eu de nombreuses fois où Ryan m’a demandé de revenir à 30000 points de données dans une revue!

Il convient également de noter que les avis ne sont souvent pas mis à jour avec des données de processeur plus récentes, car il y aurait une déconnexion factuelle avec l’analyse textuelle ci-dessous.

C’est pourquoi Bench existe. Nous lions souvent chaque examen à Bench et demandons aux utilisateurs de s’y rendre pour comparer d’autres processeurs, ou pour des références / pannes de référence héritées qui ne sont pas dans la revue principale.

Mais pour #CPUOverload, avec la marche en cours de Windows 10 et ses fonctionnalités spéciales (telles que l’activation de Speed ​​Shift sur les processeurs Intel, les nouvelles mises à jour du planificateur pour ACPI 6.2 et le modèle de pilote pour prendre en charge DX12), il a fallu du temps pour nous de mettre à jour notre suite de tests CPU. Nos critiques récentes ont principalement été critiquées pour l’utilisation de matériel encore plus ancien, à savoir les GTX 1080 que j’ai pu me procurer, ainsi que pour certains tests qui ne fonctionnaient pas toujours avec le processeur. (Il convient de noter qu’en plus de l’approvisionnement en CPU pour les tests, l’approvisionnement en GPU est un peu plus difficile – demander à un fournisseur ou au fabricant de GPU deux ou trois ou plus du même GPU sans examen direct est une question difficile.) L’autre angle est que au cours d’un mois donné, je recevrai des demandes supplémentaires pour évaluer des tests de processeur spécifiques – les utilisateurs préfèrent aujourd’hui voir leur charge de travail en action à des fins de comparaison, plutôt que des synthèses générales, pour des raisons évidentes.

Il y a aussi une question personnelle d’expérience utilisateur sur Bench, qui n’a pas bien vieilli depuis notre dernière mise à jour de la mise en page du site en 2013.

Dans l’ensemble, les objectifs de la surcharge du processeur sont:

  • Source tous les processeurs. Concentrez-vous sur ceux que les gens utilisent réellement
  • Retester les CPU sur Windows 10 avec de nouveaux tests de CPU
  • Testez à nouveau les processeurs sur Windows 10 avec de nouveaux tests de jeu
  • Mettre à jour l’interface du banc

Pour le projet #CPUOverload, nous testons sous Windows 10, avec une variété de nouveaux tests, y compris AI et SPEC, avec de nouveaux tests de jeu sur les derniers GPU et des benchmarks plus réels. Mais le cœur de la surcharge du processeur est le suivant:

Nous voulons que chaque CPU de bureau depuis 2010 soit testé sur nos nouveaux benchmarks. D’après mes calculs, il y en a plus de 900.