Aller au contenu

Mode de jeu AMD Ryzen Threadripper 1950X, étalonné

    1645560003

    Test du sous-système Infinity Fabric & Memory de Ryzen

    Latence et bande passante Infinity Fabric

    La barre transversale Infinity Fabric 256 bits relie les ressources à l’intérieur d’un dé Zeppelin. Cependant, l’ajout d’une deuxième matrice Zeppelin pour créer Threadripper introduit une autre couche de tissu. Les accès au cache restent locaux pour chaque CCX, mais une grande quantité de mémoire, d’E/S et de trafic de thread à thread circule toujours sur cette deuxième couche.

    Il n’a pas fallu longtemps aux passionnés pour comprendre que l’Infinity Fabric d’AMD est lié au même domaine de fréquence que le contrôleur de mémoire, de sorte qu’un overclock de mémoire réduit la latence et augmente la bande passante via la barre transversale. Les performances des applications sensibles à la latence (comme les jeux) s’améliorent en conséquence.

    Le test d’efficacité multicœur du processeur de SiSoftware Sandra nous aide à illustrer les performances d’Infinity Fabric. Nous utilisons la métrique Multi-Threaded avec le paramètre « best pair match » (latence la plus faible). L’utilitaire mesure les temps de ping entre les threads pour quantifier la latence de la structure dans toutes les configurations possibles.

    Les mesures de latence intra-cœur représentent la communication entre deux threads logiques résidant sur le même cœur physique, et comme nous pouvons le voir, la désactivation de SMT élimine entièrement cette mesure. Pour les configurations restantes, le réglage réduit la latence de quelques nanosecondes. Mais cela est attribuable à des fréquences d’horloge plus élevées. Comme nous l’avons vu dans le passé, l’augmentation des fréquences de mémoire a peu d’effet sur la latence intra-cœur.

    Les mesures intra-CCX quantifient la latence entre les threads sur le même CCX qui ne résident pas sur le même cœur. L’augmentation de la fréquence d’horloge donne des réductions de latence plus importantes d’environ 6 ns.

    Cross-CCX quantifie la latence entre les threads situés sur deux CCX distincts, et nous constatons une réduction similaire grâce à l’overclocking. Notamment, le Ryzen 7 1800X présente une latence Cross-CCX beaucoup plus faible que le Threadripper d’origine et la plupart des configurations overclockées. Cela est probablement dû à une certaine forme de provisionnement, éventuellement dans les algorithmes de planification, pour la couche de tissu supplémentaire de Threadripper.

    Comme nous pouvons le voir, le processeur Threadripper overclocké en mode Jeu, qui n’a pas de lien de structure actif vers l’autre matrice, a la latence Cross-CCX la plus faible.

    Die-To-Die mesure la communication entre les deux matrices Zeppelin distinctes. Le mode jeu désactive efficacement le deuxième dé Zeppelin au niveau du système d’exploitation, éliminant entièrement la latence die-to-die. L’uncore du second die est cependant toujours actif, ce qui est nécessaire pour s’assurer que ses contrôleurs d’E/S et de mémoire sont toujours accessibles.

    Le mode Creator souffre de la pire latence die-to-die, mais le réglage la réduit considérablement. Les deux options SMT (activé et désactivé) bénéficient également de réductions importantes de nos efforts d’overclocking.

    L’utilitaire mesure également la bande passante de la structure, ce qui est essentiel pour les performances, car les données extraites de la mémoire distante circulent également à travers la structure. En tant que tel, AMD surprovisionne la structure et le sous-système de mémoire pour optimiser l’architecture de mémoire distribuée.

    Le mode Creator et les configurations Local/SMT offrent la meilleure bande passante de tissu, bénéficiant de gros boosts grâce à l’overclocking. Le Ryzen 7 1800X se situe au milieu du tableau aux côtés du mode Jeu de Threadripper, ce qui est logique étant donné qu’ils sont tous deux des processeurs 8C/16T. La désactivation de SMT mais en laissant les deux matrices actives (Local/SMT désactivé) donne un profil unique qui offre des performances supérieures avec des accès plus larges et des performances inférieures avec des accès plus petits.

    Cache et latence de la mémoire

    Nous avons testé avec la mémoire DDR4-2666 aux paramètres d’origine et augmenté à DDR4-3200 pour nos configurations overclockées.

    Le tampon de recherche de traduction est un cache qui réduit les temps d’accès en stockant les adresses mémoire récemment consultées. Comme tous les caches, le TLB a une capacité limitée, donc les demandes d’adresse qui arrivent dans le TLB sont des « hits », tandis que les demandes qui arrivent en dehors du cache sont des « échecs ». Bien sûr, les hits sont plus souhaitables et les performances solides du prefetcher génèrent des taux de hit plus élevés.

    Les modèles d’accès séquentiels sont presque entièrement prérécupérés dans le TLB, de sorte que le test séquentiel est une bonne mesure des performances du prérécupérateur. Le test aléatoire dans la page mesure les accès aléatoires au sein d’une même page mémoire. Il mesure également les performances TLB et représente les meilleures performances aléatoires (il s’agit de la mesure utilisée par les fournisseurs pour les fiches techniques officielles). Le test aléatoire complet comprend un mélange de réussites et d’échecs TLB, avec une forte probabilité d’échecs, de sorte qu’il quantifie la latence dans le pire des cas.

    Quel que soit le modèle d’accès à la mémoire, les plus petits blocs de données tiennent dans le cache L1. Et à mesure que la taille des données augmente, elle remplit les plus grands caches.

    L1L2L3Mémoire principale

    Varier
    2 Ko – 32 Ko
    32 Ko – 512 Ko
    512 Ko – 8 Mo
    8 Mo – 1 Go

    Threadripper 1950X offre une meilleure latence L2 et L3 que le Ryzen 7 1800X avec chaque type de modèle d’accès. De plus, nous remarquons des réductions de latence notables via l’overclocking pour les caches L1, L2 et L3 de Threadripper.

    Cela change à mesure que la charge de travail s’écoule vers la mémoire principale. Le mode créateur de Threadripper (le paramètre par défaut) a la latence la plus élevée avec chaque modèle d’accès. Ceci est le résultat direct des accès mémoire qui atterrissent dans la mémoire distante. Nos mesures sur la page reflètent la spécification 86,9ns d’AMD, mais l’accès aléatoire complet dans le pire des cas dépasse 120ns. L’overclocking du processeur et de la mémoire réduit la latence, mais le mode Creator ne dépasse toujours aucune des configurations auxquelles nous le comparons. 

    Le passage en mode NUMA avec le paramètre Local améliore considérablement l’accès à la mémoire principale pour les autres configurations. Nous mesurons environ 60ns pour l’accès proche de la mémoire dans la page, toujours conformément aux spécifications d’AMD, tandis que la latence dans le pire des cas pèse 100ns.

    Bande passante du cache

    Chaque CCX a ses propres caches, donc un CPU Threadripper dispose de quatre clusters distincts de mémoire L1, L2 et L3. Notre benchmark de bande passante illustre les performances globales de ces niveaux. 

    Lors du test à un seul thread, Ryzen 7 1800X démontre un débit inférieur à celui des processeurs Threadripper. Les autres configurations se regroupent dans des stocks familiers et des groupes overclockés.

    Les tests multi-threads sont plus intéressants ; nous voyons Ryzen 7 1800X et les deux modes de jeu Threadripper tomber au bas du tableau. Étant donné que le mode Jeu désactive les cœurs sur un dé, il met hors service le cache correspondant.

    0 0 votes
    Rating post
    S’abonner
    Notification pour
    guest
    0 comments
    Commentaires en ligne
    Afficher tous les commentaires
    0
    Nous aimerions avoir votre avis, veuillez laisser un commentaire.x