Zum Inhalt springen

AMD Ryzen Threadripper 1950X im Test

    1647429603

    Spielmodi & Architektur, Latenztests von Infinity Fabric

    Wir haben die Zen-Architektur von AMD eingehend behandelt und auch das Infinity Fabric ausführlich behandelt. Gehen Sie zu diesen Artikeln, um mehr darüber zu erfahren.

    Die Zeppelin-Die-Fibel

    Das riesige Paket von Threadripper verbirgt viel Komplexität darunter, aber wir werden unser Bestes tun, um es zu vereinfachen und zu skizzieren, wie es mit den innovativen Creator- und Game-Mode-Funktionen von AMD zusammenhängt.

    AMD Ryzen Threadripper 1950X (AMD) bei Amazon für 81,99 $

    Die Zen-Architektur verwendet einen CCX-Baustein (CPU Complex) mit vier Kernen. AMD stattet jeden CCX mit 8 MB L3-Cache aus, der in vier Slices aufgeteilt ist; Jeder Kern im CCX greift mit der gleichen durchschnittlichen Latenz auf alle L3-Slices zu. Zwei CCX kommen zusammen, um einen Ryzen 7-Chip mit acht Kernen zu erstellen (die großen orangefarbenen Blöcke im zweiten Bild unten), und sie kommunizieren über AMDs Infinity Fabric Interconnect. Die CCXs teilen sich denselben Dual-Channel-Speichercontroller. Dies sind im Grunde zwei Quad-Core-CPUs, die über den Infinity Fabric-Pfad miteinander kommunizieren, der auch Northbridge- und PCIe-Datenverkehr verarbeitet.

    Alle Ryzen 7-, 5- und 3-Modelle verfügen über denselben Zeppelin-Die. Obwohl jeder Kern in einem CCX mit vier Kernen mit der gleichen durchschnittlichen Latenz auf den lokalen Cache zugreifen kann, ziehen Fahrten zum Abrufen von Daten in benachbarten CCXs eine Latenzstrafe nach sich. Auch die Kommunikation zwischen Threads auf Kernen, die sich in unterschiedlichen CCXs befinden, leidet darunter, was für Spiele von besonderer Bedeutung ist. Viele Spiele-Engines teilen verschiedene Aufgaben auf verschiedene Threads auf, sind jedoch auf eine ständige Synchronisation zwischen ihnen angewiesen. Entwickler können einen Teil der Kommunikationslatenz auffangen, indem sie die Ryzen-Architektur optimieren.

    Den Threadripper bauen

    Die folgende Grafik stellt den EPYC-Rechenzentrumsprozessor von AMD dar, der das grundlegende Design von Threadripper teilt. Wir sehen vier separate Zeppelin-Dies, die über das Infinity-Fabric verbunden sind, und die beiden CCXs in jedem Die. Dadurch entsteht ein Multi-Chip-Modul (MCM) mit 32 Kernen. Natürlich ist Threadripper „nur“ ein 16-Kern-Prozessor. Um diese Konfiguration zu erstellen, ersetzt AMD zwei „Dummy-Dies“, bei denen es sich um nicht funktionale Füllstoffe handelt, die die strukturelle Integrität des Wärmeverteilers und eine konsistente Verbindung mit den Stiften des Sockels gewährleisten. Ohne diese dunklen Chips würde der IHS entweder nachgeben, wenn Sie Ihre Kühllösung festziehen, oder der Chip würde sich verziehen und keinen vollständigen Kontakt mit den Stiften herstellen. AMD weist darauf hin, dass die funktionalen Chips von Threadripper immer diagonal zueinander platziert sind, was in Anbetracht des Gewebes sinnvoll ist.

    Denken Sie daran, dass jeder Zeppelin-Die seinen eigenen Speicher und seine eigenen PCIe-Controller hat. Das bedeutet, dass eine Arbeitslast, die auf einem Chip ausgeführt wird, auf Daten zugreifen muss, die sich im Speicher des anderen Chips (entfernter Speicher) befinden, eine viel größere Lücke überwinden muss. Dies führt zu einer Latenz, die wir bei früheren Ryzen-Modellen nicht gesehen haben, und ihre Auswirkung auf die Spieleleistung ist tiefgreifend. Die Auswirkungen sind bei den meisten professionellen Workloads nicht so schwerwiegend, aber einige leiden darunter. 

    Die neuen Schalter

    Um den Auswirkungen des Remote-Speicherzugriffs entgegenzuwirken, führt AMD einen neuen Speicherzugriffsmodus ein, den Sie entweder im BIOS oder mit der Ryzen Master-Software umschalten können. Die Einstellungen „Lokal“ und „Verteilt“ schalten zwischen NUMA (Non-Uniform Memory Access) und UMA (Universal Memory Access) um.

    UMA (verteilt) ist ziemlich einfach; es ermöglicht den Dies, auf den gesamten angeschlossenen Speicher zuzugreifen. Der NUMA-Modus (lokal) versucht, alle Daten für den Prozess, der auf dem Chip ausgeführt wird, auf seinen direkt angeschlossenen Speichercontroller zu beschränken. Es richtet einen NUMA-Knoten pro Chip ein (sichtbar im Task-Manager). Dadurch werden Datenabrufe aus dem entfernten Speicher, der mit einem anderen Chip verbunden ist, reduziert und möglicherweise sogar eliminiert, obwohl der Chip bei Bedarf immer noch darauf zugreifen kann. NUMA ist tief in Unternehmen verwurzelt, aber die Technik funktioniert am besten, wenn Programme speziell dafür entwickelt wurden, sie zu nutzen. Es ist eine Seltenheit auf dem Desktop, aber obwohl fast keine Desktop-Anwendung darauf ausgelegt ist, es vollständig zu unterstützen, kann es Leistungsvorteile für Nicht-NUMA-Anwendungen geben.

    AMDs Threadripper fügt dem Desktop mehr Kerne hinzu, als wir je gesehen haben; einige Sendungen werden schlecht vorbereitet erwischt. Tatsächlich laufen einige Spiele wie Far Cry Primal und die DiRT-Serie nicht einmal, wenn die gesamte Threadripper-Komplettierung zum Tragen kommt. Das ist offensichtlich ein Problem, also hat AMD einen Legacy-Kompatibilitätsmodus erstellt, der die Hälfte der Prozessorkerne deaktiviert, indem ein „bcdedit /set numproc XX“-Befehl in Windows ausgeführt wird, der effektiv die Hälfte des Prozessors deaktiviert. Glücklicherweise deaktiviert der Befehl aufgrund der Kernzuweisungen des Betriebssystems alle Kerne/Threads auf dem zweiten Chip. Dies hat den Nebeneffekt, dass die Thread-zu-Thread-Kommunikation zwischen unterschiedlichen Chips eliminiert wird, was eine großartige Lösung für die ständige Synchronisierung zwischen Threads während der meisten Gaming-Workloads darstellt.

    Da die Änderung in der Software vorgenommen wird, wird der „deaktivierte“ Chip immer noch mit Strom versorgt, sodass das System weiterhin auf den Speicher und die PCIe-Controller zugreifen kann, die mit dem inaktiven Chip verbunden sind.

    Spielmodus und Erstellermodus

    Was machst du also mit all diesen Knöpfen? Es gibt vier separate Kombinationen, die sich auf jede Anwendung oder jedes Spiel unterschiedlich auswirken. Sie müssen sie also durchlaufen, um die bestmögliche Kombination für Ihre Arbeitsbelastung zu finden. Das ist ein Glücksfall für Tuner, die jeden letzten Tropfen Leistung herausquetschen wollen, aber ein absoluter Alptraum für die anderen 99%.

    AMD hat sich entschieden, den Prozess zu vereinfachen, indem zwei Kombinationen spezifiziert wurden, die entweder am besten für Spiele oder Standardanwendungen funktionieren. Der Creator-Modus, die Standardkonfiguration, stellt die volle Kraft von 32 Threads zur Verfügung. Es sollte natürlich eine hervorragende Leistung für die meisten Produktivitätsanwendungen bieten.

    Der Spielmodus schneidet die Hälfte der Threads über den Kompatibilitätsmodus ab und reduziert den Arbeitsspeicher und die Latenz von Die zu Die mit dem lokalen Speichermodus. Wir werden beide Konfigurationen mit unserer Gaming-Suite testen und eine andere Konfiguration ausprobieren, die ebenfalls alle Threads bietet.

    Infinity Fabric-Latenztests

    Die Chip-to-Die-Kommunikation fügt der komplizierten Architektur von Ryzen eine weitere Latenzebene hinzu. Wie Sie sehen können, gelten dieselben Latenzmetriken nicht für die früheren Ryzen-Modelle. Sie stellen auch Herausforderungen für einige Anwendungen dar, z. B. solche mit synchronisierten Threads oder häufigen Abrufen aus dem Remotespeicher, haben aber weniger Auswirkungen auf andere.

    Prozessor
    Intra-Core-Latenz
    Intra-CCX Core-to-Core-Latenz
    CCX-übergreifende Core-to-Core-Latenz
    CCX-übergreifende durchschnittliche Latenz
    Die-to-Die-Latenz
    Durchschnittliche Latenz von Chip zu Chip
    Durchschnittliche Übertragungsbandbreite

    TR 1950X Creator-Modus DDR-2666
    13.7 – 14.1
    39,4 – 43,2 ns
    157,6 – 171,3
    168ns
    180,6 – 256,7 ns
    238,47 ns
    90,26 GB/s

    TR 1950X Creator-Modus DDR4-3200
    13.8 – 14.9
    39,2 – 45,4 ns
    144,9 – 167,2 ns
    160,1 ns
    213,1 – 227,8 ns
    216,9 ns
    91,67 GB/s

    TR 1950X Spielmodus DDR4-2666
    13,9 – 14,2 ns
    39,5 – 42,3 ns
    149,2 – 164,1 ns
    159,66 ns
    x
    x
    46,58 GB/s

    TR 1950X Spielmodus DDR4-3200
    14,3 – 14,9 ns
    41,2 – 46,2 ns
    123 – 150,6 ns
    145,44 ns
    x
    x
    45,52 GB/s

    TR 1950X Lokal/SMT DDR4-2666
    13,9 – 14,4 ns
    39,6 – 43,1 ns
    168,7 – 175,4 ns
    171,48ns
    232,4 – 240,8
    235,38 ns
    92,7 GB/s

    TR 1950X Lokal/SMT DDR4-3200
    13,9 – 14,4 ns
    39,9 – 44,5 ns
    146,7 – 159,4 ns
    153,89 ns
    209,3 – 220,9 ns
    212,53 ns
    91 GB/s

    Ryzen7 1800X
    14,8 ns
    40,5 – 82,8 ns
    120,9 – 126,2 ns
    122,96 ns
    x
    x
    48,1 GB/s

    Ryzen 5 1600X
    14,7 – 14,8 ns
    40,6 – 82,8 ns
    121,5 – 128,2 ns
    123,48 ns
    x
    x
    43,88 GB/s

    Die Intra-Core-Latenzmessungen stellen die Kommunikation zwischen zwei logischen Threads dar, die sich auf demselben physischen Kern befinden, und sie werden nicht von der Speichergeschwindigkeit beeinflusst. Intra-CCX-Messungen quantifizieren die Latenz zwischen Threads, die sich auf demselben CCX, aber nicht auf demselben Kern befinden. In der Vergangenheit haben wir leichte Leistungsabweichungen beobachtet, aber die Intra-CCX-Latenz ist auch weitgehend unbeeinflusst von der Speichergeschwindigkeit. Wir haben jedoch eine starke Verringerung der Cross-CCX-Latenz beobachtet, die die Latenz zwischen Threads bezeichnet, die sich auf zwei separaten CCX befinden, indem wir die Speicherdatenübertragungsrate von DDR4-1333 auf DDR4-3200 bei Ryzen 5- und 7-Modellen erhöht haben.

    Der gleiche allgemeine Trend setzt sich bei Threadripper fort. Wie wir sehen können, beseitigt das Umschalten des Spielmodus die Die-to-Die-Latenz für Threads, indem effektiv ein Die deaktiviert wird, aber es reduziert auch die Host-Verarbeitungsressourcen. Es ist eine interessante Funktion, die einigen Workloads zugute kommt, andere jedoch behindert.

    Wir stellen auch fest, dass die Local/SMT-Kombination, die aus der lokalen Einstellung besteht und alle Kerne aktiv lässt (Legacy aus), die beste allgemeine Latenzverbesserung durch Speicherübertaktung bietet. Wir haben auch eine höhere Cross-CCX-Latenz mit den Threadripper-Prozessoren aufgezeichnet.

    Prozessor
    Intra-Core-Latenz
    Core-to-Core-Latenz
    Durchschnittliche Kern-zu-Kern-Latenz
    Durchschnittliche Übertragungsbandbreite

    Core i9-7900X
    14,5 – 16 ns
    69,3 – 82,3 ns
    75,56 ns
    83,21 GB/s

    Core i9-7900X bei 3200 MT/s
    16 – 16,1 ns
    76,8 – 91,3 ns
    83,93ns
    87,31 GB/s

    Core i7-6950X
    13,5 – 15,4 ns
    54,5 – 70,3 ns
    64,64 ns
    65,67 GB/s

    Core i7-7700K
    14,7 – 14,9 ns
    36,8 – 45,1 ns
    42,63 ns
    35,84 GB/s

    Wir befinden uns mitten in einer breiteren Reihe von Tests, um zu quantifizieren, wie sich diese Modi unter anderem auf die Speicherlatenz und die Bandbreite auswirken. Bleib dran.

    0 0 votes
    Rating post
    Abonnieren
    Benachrichtige mich bei
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x