Zum Inhalt springen

AMD Ryzen Threadripper 1950X Spielmodus, Benchmarking

    1645560003

    Testen des Infinity Fabric & Memory Subsystems von Ryzen

    Infinity Fabric Latenz und Bandbreite

    Die 256-Bit Infinity Fabric Crossbar bindet die Ressourcen innerhalb eines Zeppelin-Dies zusammen. Das Anheften eines zweiten Zeppelin-Würfels zum Erstellen von Threadripper führt jedoch eine weitere Schicht des Gewebes ein. Cache-Zugriffe bleiben für jeden CCX lokal, aber eine große Menge an Speicher, E/A und Thread-zu-Thread-Verkehr fließt immer noch über diese zweite Schicht.

    Es dauerte nicht lange, bis Enthusiasten herausfanden, dass AMDs Infinity Fabric in denselben Frequenzbereich wie der Speichercontroller eingebunden ist, sodass eine Speicherübertaktung die Latenz verringert und die Bandbreite durch die Kreuzschiene erhöht. Die Leistung in latenzempfindlichen Anwendungen (wie Spielen) verbessert sich folglich.

    Der Prozessor-Multi-Core-Effizienztest von SiSoftware Sandra hilft uns, die Leistung des Infinity Fabric zu veranschaulichen. Wir verwenden die Multi-Threaded-Metrik mit der Einstellung „Best Pair Match“ (geringste Latenz). Das Dienstprogramm misst Ping-Zeiten zwischen Threads, um die Fabric-Latenz in jeder möglichen Konfiguration zu quantifizieren.

    Die Intra-Core-Latenzmessungen stellen die Kommunikation zwischen zwei logischen Threads dar, die sich auf demselben physischen Kern befinden, und wie wir sehen können, eliminiert das Deaktivieren von SMT diese Messung vollständig. Bei den verbleibenden Setups reduziert das Tuning die Latenz um einige Nanosekunden. Dies ist aber auf höhere Taktraten zurückzuführen. Wie wir in der Vergangenheit gesehen haben, haben erhöhte Speicherfrequenzen nur geringe Auswirkungen auf die Intra-Core-Latenz.

    Intra-CCX-Messungen quantifizieren die Latenz zwischen Threads auf demselben CCX, die sich nicht auf demselben Kern befinden. Eine Erhöhung der Taktrate führt zu größeren Latenzreduzierungen von ~6 ns.

    Cross-CCX quantifiziert die Latenz zwischen Threads, die sich auf zwei separaten CCX befinden, und wir sehen eine ähnliche Reduzierung dank Übertaktung. Insbesondere weist der Ryzen 7 1800X eine viel geringere Cross-CCX-Latenz auf als der Standard-Threadripper und die meisten übertakteten Konfigurationen. Dies liegt wahrscheinlich an einer Form der Bereitstellung, möglicherweise in den Planungsalgorithmen, für die zusätzliche Stoffschicht von Threadripper.

    Wie wir sehen können, hat die übertaktete Threadripper-CPU im Game-Modus, die keine aktive Fabric-Verbindung zum anderen Die hat, die niedrigste Cross-CCX-Latenz.

    Die-To-Die misst die Kommunikation zwischen den beiden separaten Zeppelin-Dies. Der Spielmodus deaktiviert effektiv den zweiten Zeppelin-Die auf Betriebssystemebene, wodurch die Latenz von Die zu Die vollständig eliminiert wird. Der Uncore des zweiten Chips ist jedoch immer noch aktiv, was notwendig ist, um sicherzustellen, dass seine I/O- und Speichercontroller weiterhin zugänglich sind.

    Der Creator-Modus leidet unter der schlimmsten Die-to-Die-Latenz, aber das Tuning reduziert sie erheblich. Die beiden SMT-Optionen (ein und aus) erhalten ebenfalls große Reduzierungen durch unsere Übertaktungsbemühungen.

    Das Dienstprogramm misst auch die Fabric-Bandbreite, was für die Leistung entscheidend ist, da Datenabrufe aus dem Remote-Speicher auch über das Fabric fließen. Daher stellt AMD das Fabric- und Speicher-Subsystem überproportional bereit, um die verteilte Speicherarchitektur zu optimieren.

    Sowohl der Creator-Modus als auch die Local/SMT-Konfigurationen bieten die beste Fabric-Bandbreite und profitieren von großen Steigerungen durch Übertaktung. Der Ryzen 7 1800X fällt neben Threadrippers Spielmodus in die Mitte der Tabelle, was logisch ist, wenn man bedenkt, dass es sich bei beiden effektiv um 8C/16T-Prozessoren handelt. Das Deaktivieren von SMT, aber das Belassen beider Chips (lokal/SMT aus) ergibt ein einzigartiges Profil, das eine höhere Leistung bei größeren Zugriffen und eine geringere Leistung bei kleineren Zugriffen bietet.

    Cache- und Speicherlatenz

    Wir haben mit DDR4-2666-Speicher bei Standardeinstellungen getestet und für unsere übertakteten Konfigurationen auf DDR4-3200 erhöht.

    Der Translation Look Aside Buffer ist ein Cache, der Zugriffszeiten verkürzt, indem er Speicheradressen speichert, auf die kürzlich zugegriffen wurde. Wie alle Caches hat der TLB eine begrenzte Kapazität, sodass Adressanfragen, die im TLB landen, „Treffer“ sind, während Anfragen, die außerhalb des Caches landen, „Fehlschläge“ sind. Natürlich sind Treffer wünschenswerter, und eine solide Prefetcher-Leistung führt zu höheren Trefferquoten.

    Sequentielle Zugriffsmuster werden fast vollständig in den TLB vorab abgerufen, sodass der sequentielle Test ein gutes Maß für die Leistung des Vorabrufers ist. Der In-Page Random Test misst wahlfreie Zugriffe innerhalb derselben Speicherseite. Es misst auch die TLB-Leistung und stellt die zufällige Best-Case-Leistung dar (dies ist die Messung, die Anbieter für offizielle Datenblätter verwenden). Der vollständige Zufallstest weist eine Mischung aus TLB-Treffern und -Fehlschlägen mit einer hohen Wahrscheinlichkeit von Fehltreffern auf, sodass er die Worst-Case-Latenz quantifiziert.

    Unabhängig vom Speicherzugriffsmuster passen die kleinsten Datenblöcke in den L1-Cache. Und wenn die Größe der Daten zunimmt, füllen sie die größeren Caches.

    L1L2L3Hauptspeicher

    Bereich
    2 KB – 32 KB
    32 KB – 512 KB
    512 KB – 8 MB
    8 MB – 1 GB

    Threadripper 1950X bietet bei jeder Art von Zugriffsmuster eine bessere L2- und L3-Latenz als Ryzen 7 1800X. Außerdem stellen wir bemerkenswerte Latenzreduzierungen durch Übertaktung für die L1-, L2- und L3-Caches von Threadripper fest.

    Das ändert sich, wenn die Arbeitslast in den Hauptspeicher fließt. Der Creator-Modus von Threadripper (die Standardeinstellung) hat bei jedem Zugriffsmuster die höchste Latenz. Dies ist ein direktes Ergebnis von Speicherzugriffen, die im entfernten Speicher landen. Unsere In-Page-Messungen spiegeln die 86,9-ns-Spezifikation von AMD wider, aber im schlimmsten Fall überschreitet der vollständige wahlfreie Zugriff 120 ns. Das Übertakten des Prozessors und des Speichers verringert die Latenz, aber der Creator-Modus überholt immer noch keine der Konfigurationen, mit denen wir ihn vergleichen. 

    Das Umschalten in den NUMA-Modus mit der Einstellung Lokal verbessert den Hauptspeicherzugriff für die anderen Konfigurationen erheblich. Wir messen ~60 ns für seiteninternen Speicherzugriff, wiederum in Übereinstimmung mit den Spezifikationen von AMD, während die Worst-Case-Latenz bei 100 ns liegt.

    Cache-Bandbreite

    Jeder CCX hat seine eigenen Caches, sodass eine Threadripper-CPU über vier unterschiedliche Cluster von L1-, L2- und L3-Speicher verfügt. Unser Bandbreiten-Benchmark zeigt die aggregierte Leistung dieser Ebenen. 

    Während des Single-Threaded-Tests zeigt Ryzen 7 1800X einen geringeren Durchsatz als die Threadripper-Prozessoren. Die anderen Konfigurationen häufen sich in bekannten Stock- und Overclocked-Gruppen an.

    Interessanter sind die Multithread-Tests; Wir sehen Ryzen 7 1800X und die beiden Threadripper-Spielmodi fallen ans Ende der Tabelle. Da der Spielmodus die Kerne auf einem Chip deaktiviert, wird der entsprechende Cache effektiv außer Betrieb genommen.

    0 0 votes
    Rating post
    Abonnieren
    Benachrichtige mich bei
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x