Skip to content

Mode Game AMD Ryzen Threadripper 1950X, Benchmarked

    1645560003

    Menguji Subsistem Infinity Fabric & Memori Ryzen

    Infinity Fabric Latensi Dan Bandwidth

    Palang Infinity Fabric 256-bit mengikat sumber daya di dalam die Zeppelin bersama-sama. Menempel pada mati Zeppelin kedua untuk membuat Threadripper memperkenalkan lapisan kain yang lain. Akses cache tetap lokal untuk setiap CCX, tetapi sejumlah besar memori, I/O, dan lalu lintas thread-to-thread masih mengalir melintasi lapisan kedua itu.

    Tidak butuh waktu lama bagi para penggemar untuk mengetahui bahwa Infinity Fabric AMD terikat ke dalam domain frekuensi yang sama dengan pengontrol memori, sehingga overclock memori mengurangi latensi dan meningkatkan bandwidth melalui mistar gawang. Performa dalam aplikasi yang sensitif terhadap latensi (seperti game) secara konsekuen meningkat.

    Uji Efisiensi Multi-Core Prosesor SiSoftware Sandra membantu kami mengilustrasikan kinerja Infinity Fabric. Kami menggunakan metrik Multi-Urutan dengan setelan “pasangan terbaik” (latensi terendah). Utilitas ini mengukur waktu ping antar utas untuk mengukur latensi fabric di setiap konfigurasi yang memungkinkan.

    Pengukuran latensi intra-inti mewakili komunikasi antara dua utas logis yang berada di inti fisik yang sama, dan seperti yang dapat kita lihat, menonaktifkan SMT menghilangkan pengukuran itu sepenuhnya. Untuk penyiapan lainnya, penyetelan mengurangi latensi beberapa nanodetik. Tapi ini disebabkan oleh clock rate yang lebih tinggi. Seperti yang telah kita lihat di masa lalu, peningkatan frekuensi memori memiliki sedikit efek pada latensi intra-inti.

    Pengukuran intra-CCX mengukur latensi antara utas pada CCX yang sama yang tidak berada di inti yang sama. Meningkatkan laju jam menghasilkan pengurangan latensi ~6ns yang lebih besar.

    Cross-CCX mengukur latensi antara utas yang terletak di dua CCX terpisah, dan kami melihat pengurangan serupa berkat overclocking. Khususnya, Ryzen 7 1800X menampilkan latensi Cross-CCX yang jauh lebih rendah daripada Threadripper stok dan sebagian besar konfigurasi yang di-overclock. Ini kemungkinan karena beberapa bentuk penyediaan, mungkin dalam algoritme penjadwalan, untuk lapisan kain ekstra Threadripper.

    Seperti yang kita lihat, CPU Threadripper yang di-overclock dalam mode Game, yang tidak memiliki tautan fabric aktif ke die lainnya, memiliki latensi Cross-CCX terendah.

    Die-To-Die mengukur komunikasi antara dua Zeppelin yang terpisah. Mode permainan secara efektif menonaktifkan die Zeppelin kedua pada tingkat sistem operasi, menghilangkan latensi die-to-die sepenuhnya. Uncore die kedua masih aktif, yang diperlukan untuk memastikan I/O dan pengontrol memorinya masih dapat diakses.

    Mode pencipta mengalami latensi die-to-die terburuk, tetapi penyetelan menguranginya secara signifikan. Kedua opsi SMT (hidup dan mati) juga menerima pengurangan besar dari upaya overclocking kami.

    Utilitas juga mengukur bandwidth fabric, yang sangat penting untuk kinerja karena pengambilan data dari memori jarak jauh juga mengalir melintasi fabric. Dengan demikian, AMD menyediakan subsistem fabric dan memori secara berlebihan untuk mengoptimalkan arsitektur memori terdistribusi.

    Baik mode Creator dan konfigurasi Lokal/SMT menawarkan bandwidth fabric terbaik, menikmati peningkatan besar dari overclocking. Ryzen 7 1800X berada di tengah grafik di samping mode Game Threadripper, yang logis mengingat keduanya adalah prosesor 8C/16T yang efektif. Menonaktifkan SMT tetapi membiarkan kedua mati aktif (Lokal/SMT mati) menghasilkan profil unik yang memberikan kinerja lebih tinggi dengan akses yang lebih besar dan kinerja yang lebih rendah dengan akses yang lebih kecil.

    Latensi Cache Dan Memori

    Kami menguji dengan memori DDR4-2666 pada pengaturan stok dan meningkatkan ke DDR4-3200 untuk konfigurasi overclock kami.

    Translation Look Selain Buffer adalah cache yang mengurangi waktu akses dengan menyimpan alamat memori yang baru diakses. Seperti semua cache, TLB memiliki kapasitas terbatas, jadi alamat permintaan yang mendarat di TLB adalah “hits”, sedangkan permintaan yang mendarat di luar cache adalah “misses”. Tentu saja, hit lebih diinginkan, dan kinerja prefetcher yang solid menghasilkan hit rate yang lebih tinggi.

    Pola akses sekuensial hampir seluruhnya di-prefetcher ke dalam TLB, jadi pengujian sekuensial adalah ukuran yang baik untuk kinerja prefetcher. Tes acak dalam halaman mengukur akses acak dalam halaman memori yang sama. Ini juga mengukur kinerja TLB dan mewakili kinerja acak kasus terbaik (ini adalah pengukuran yang digunakan vendor untuk lembar spesifikasi resmi). Tes acak lengkap menampilkan campuran hit dan miss TLB, dengan kemungkinan kesalahan yang kuat, sehingga mengukur latensi kasus terburuk.

    Terlepas dari pola akses memori, potongan data terkecil masuk ke dalam cache L1. Dan ketika ukuran data meningkat, itu mengisi cache yang lebih besar.

    L1L2L3Memori Utama

    Jangkauan
    2KB – 32KB
    32KB – 512KB
    512KB – 8MB
    8MB – 1GB

    Threadripper 1950X menampilkan latensi L2 dan L3 yang lebih baik daripada Ryzen 7 1800X dengan setiap jenis pola akses. Selain itu, kami melihat pengurangan latensi yang mencolok melalui overclocking untuk cache L1, L2, dan L3 Threadripper.

    Itu berubah saat beban kerja mengalir ke memori utama. Mode Creator Threadripper (pengaturan default) memiliki latensi tertinggi dengan setiap pola akses. Ini adalah akibat langsung dari akses memori yang mendarat di memori jarak jauh. Pengukuran dalam halaman kami mencerminkan spesifikasi 86.9ns AMD, tetapi akses acak penuh kasus terburuk melebihi 120ns. Overclocking prosesor dan memori menurunkan latensi, tetapi mode Creator tetap tidak menyalip konfigurasi apa pun yang kami bandingkan. 

    Beralih ke mode NUMA dengan pengaturan Lokal meningkatkan akses memori utama secara dramatis untuk konfigurasi lainnya. Kami mengukur ~60ns untuk akses memori dekat halaman dalam, sekali lagi sejalan dengan spesifikasi AMD, sementara latensi terburuk berbobot 100ns.

    Bandwidth Cache

    Setiap CCX memiliki cache sendiri, sehingga CPU Threadripper memiliki empat kelompok memori L1, L2, dan L3 yang berbeda. Tolok ukur bandwidth kami menggambarkan kinerja agregat dari tingkatan ini. 

    Selama pengujian single-threaded, Ryzen 7 1800X menunjukkan throughput yang lebih rendah daripada prosesor Threadripper. Konfigurasi lainnya mengumpul dalam stok yang sudah dikenal dan grup yang di-overclock.

    Tes multi-utas lebih menarik; kita melihat Ryzen 7 1800X dan dua mode Game Threadripper jatuh ke bagian bawah grafik. Karena mode Game menonaktifkan inti pada satu dadu, ini secara efektif menghilangkan cache yang sesuai dari komisi.

    0 0 votes
    Rating post
    Subscribe
    Notify of
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x
    ()
    x