Vai al contenuto

Modalità di gioco AMD Ryzen Threadripper 1950X, benchmark

    1645560003

    Test del sottosistema Infinity Fabric & Memory di Ryzen

    Latenza e larghezza di banda del tessuto Infinity

    La barra trasversale Infinity Fabric a 256 bit lega insieme le risorse all’interno di un dado Zeppelin. Tuttavia, imbastire un secondo dado Zeppelin per creare Threadripper introduce un altro strato di tessuto. Gli accessi alla cache rimangono locali in ogni CCX, ma una grande quantità di memoria, I/O e traffico da thread a thread continuano a fluire attraverso quel secondo livello.

    Non ci è voluto molto perché gli appassionati capissero che Infinity Fabric di AMD è legato allo stesso dominio di frequenza del controller di memoria, quindi un overclock della memoria riduce la latenza e aumenta la larghezza di banda attraverso la barra trasversale. Di conseguenza, le prestazioni nelle applicazioni sensibili alla latenza (come i giochi) migliorano.

    Il test di efficienza multi-core del processore di SiSoftware Sandra ci aiuta a illustrare le prestazioni di Infinity Fabric. Utilizziamo la metrica multi-thread con l’impostazione “best pair match” (latenza più bassa). L’utilità misura i tempi di ping tra i thread per quantificare la latenza del tessuto in ogni possibile configurazione.

    Le misurazioni della latenza intra-core rappresentano la comunicazione tra due thread logici residenti sullo stesso core fisico e, come possiamo vedere, la disabilitazione di SMT elimina completamente tale misurazione. Per le restanti configurazioni, l’ottimizzazione riduce la latenza di alcuni nanosecondi. Ma questo è attribuibile a frequenze di clock più elevate. Come abbiamo visto in passato, l’aumento delle frequenze di memoria ha scarso effetto sulla latenza intra-core.

    Le misurazioni intra-CCX quantificano la latenza tra i thread sullo stesso CCX che non risiedono sullo stesso core. Aumentando la frequenza di clock si ottengono maggiori riduzioni della latenza di ~6ns.

    Cross-CCX quantifica la latenza tra i thread situati su due CCX separati e vediamo una riduzione simile grazie all’overclocking. In particolare, il Ryzen 7 1800X presenta una latenza Cross-CCX molto inferiore rispetto al Threadripper di serie e alla maggior parte delle configurazioni overcloccate. Ciò è probabilmente dovuto a una qualche forma di provisioning, possibilmente negli algoritmi di pianificazione, per il livello di tessuto aggiuntivo di Threadripper.

    Come possiamo vedere, la CPU Threadripper overcloccata in modalità Game, che non ha un fabric link attivo all’altro die, ha la latenza Cross-CCX più bassa.

    Die-To-Die misura la comunicazione tra i due distinti dies Zeppelin. La modalità di gioco disabilita efficacemente il secondo die Zeppelin a livello di sistema operativo, eliminando completamente la latenza da die a die. Tuttavia, l’uncore del secondo die è ancora attivo, il che è necessario per garantire che i suoi I/O e i controller di memoria siano ancora accessibili.

    La modalità Creator soffre della peggiore latenza da morire a morire, ma l’ottimizzazione la riduce considerevolmente. Anche le due opzioni SMT (on e off) ricevono grandi riduzioni dai nostri sforzi di overclocking.

    L’utilità misura anche la larghezza di banda della struttura, che è fondamentale per le prestazioni poiché anche i dati recuperati dalla memoria remota fluiscono attraverso la struttura. Di conseguenza, AMD esegue il provisioning eccessivo del tessuto e del sottosistema di memoria per ottimizzare l’architettura della memoria distribuita.

    Sia la modalità Creator che le configurazioni Local/SMT offrono la migliore larghezza di banda del fabric, godendo di grandi miglioramenti dall’overclocking. Il Ryzen 7 1800X si colloca al centro della classifica insieme alla modalità Game di Threadripper, il che è logico considerando che sono entrambi effettivamente processori 8C/16T. Disabilitando SMT ma lasciando entrambi i die attivi (Local/SMT off) si ottiene un profilo unico che fornisce prestazioni più elevate con accessi più grandi e prestazioni inferiori con accessi più piccoli.

    Cache e latenza della memoria

    Abbiamo testato con memoria DDR4-2666 con impostazioni stock e aumentato a DDR4-3200 per le nostre configurazioni overcloccate.

    Il Translation Look Aside Buffer è una cache che riduce i tempi di accesso memorizzando gli indirizzi di memoria a cui si accede di recente. Come tutte le cache, il TLB ha una capacità limitata, quindi le richieste di indirizzo che atterrano nel TLB sono “hit”, mentre le richieste che arrivano al di fuori della cache sono “mancate”. Naturalmente, i colpi sono più desiderabili e le solide prestazioni del prefetcher producono tassi di successo più elevati.

    I modelli di accesso sequenziale sono quasi interamente precaricati nel TLB, quindi il test sequenziale è una buona misura delle prestazioni del prefetcher. Il test casuale in-page misura gli accessi casuali all’interno della stessa pagina di memoria. Misura anche le prestazioni del TLB e rappresenta le prestazioni casuali nel migliore dei casi (questa è la misurazione utilizzata dai fornitori per le schede tecniche ufficiali). Il test casuale completo presenta un mix di hit e miss TLB, con una forte probabilità di miss, quindi quantifica la latenza nel caso peggiore.

    Indipendentemente dal modello di accesso alla memoria, i blocchi di dati più piccoli rientrano nella cache L1. E all’aumentare della dimensione dei dati, popola le cache più grandi.

    L1L2L3 Memoria principale

    Gamma
    2KB – 32KB
    32KB – 512KB
    512 KB – 8 MB
    8 MB – 1 GB

    Threadripper 1950X offre una latenza L2 e L3 migliore rispetto al Ryzen 7 1800X con ogni tipo di pattern di accesso. Inoltre, notiamo notevoli riduzioni della latenza tramite l’overclocking per le cache L1, L2 e L3 di Threadripper.

    Ciò cambia quando il carico di lavoro scorre nella memoria principale. La modalità Creator di Threadripper (l’impostazione predefinita) ha la latenza più alta con ogni modello di accesso. Questo è il risultato diretto degli accessi alla memoria che atterrano nella memoria remota. Le nostre misurazioni in-page rispecchiano le specifiche 86.9ns di AMD, ma nel peggiore dei casi l’accesso casuale completo supera i 120 ns. L’overclocking del processore e della memoria riduce la latenza, ma la modalità Creator continua a non superare nessuna delle configurazioni con cui la confrontiamo. 

    Passare alla modalità NUMA con l’impostazione Locale migliora notevolmente l’accesso alla memoria principale per le altre configurazioni. Misuriamo circa 60 ns per l’accesso in-page vicino alla memoria, sempre in linea con le specifiche di AMD, mentre la latenza nel caso peggiore pesa 100 ns.

    Larghezza di banda della cache

    Ogni CCX ha le proprie cache, quindi una CPU Threadripper presenta quattro distinti cluster di memoria L1, L2 e L3. Il nostro benchmark della larghezza di banda illustra le prestazioni aggregate di questi livelli. 

    Durante il test a thread singolo, Ryzen 7 1800X ha dimostrato un throughput inferiore rispetto ai processori Threadripper. Le altre configurazioni si raggruppano in gruppi standard e overcloccati.

    I test multi-thread sono più interessanti; vediamo Ryzen 7 1800X e le due modalità Threadripper Game cadere in fondo alla classifica. Poiché la modalità Gioco disabilita i core su un dado, porta effettivamente fuori servizio la cache corrispondente.

    0 0 votes
    Rating post
    Subscribe
    Notificami
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x