Перейти до вмісту

Ігровий режим AMD Ryzen Threadripper 1950X, тестування

    1645560003

    Тестування підсистеми Infinity Fabric & Memory від Ryzen

    Затримка та пропускна здатність Infinity Fabric

    256-бітна перекладина Infinity Fabric об’єднує ресурси всередині кубика Zeppelin. Однак використання другого кубика Zeppelin для створення Threadripper створює ще один шар тканини. Звернення до кешу залишаються локальними для кожного CCX, але велика кількість пам’яті, вводу-виводу та трафіку від потоку до потоку все ще протікає через цей другий рівень.

    Ентузіастам не знадобилося багато часу, щоб зрозуміти, що AMD Infinity Fabric прив’язана до тієї ж частотної області, що й контролер пам’яті, тому розгін пам’яті зменшує затримку та збільшує пропускну здатність через перекладину. Таким чином, покращується продуктивність програм, чутливих до затримок (наприклад, ігор).

    Тест багатоядерної ефективності процесора SiSoftware Sandra допомагає нам проілюструвати продуктивність Infinity Fabric. Ми використовуємо багатопотоковий показник із налаштуванням «найкраща пара» (найменша затримка). Утиліта вимірює час ping між потоками, щоб кількісно визначити затримку тканини в кожній можливій конфігурації.

    Вимірювання внутрішньоядерної затримки відображають зв’язок між двома логічними потоками, що знаходяться на одному фізичному ядрі, і, як ми бачимо, вимкнення SMT повністю усуває це вимірювання. Для інших налаштувань налаштування зменшує затримку на кілька наносекунд. Але це пов’язано з більш високою тактовою частотою. Як ми бачили в минулому, збільшення частоти пам’яті мало впливає на затримку в ядре.

    Вимірювання Intra-CCX кількісно визначають затримку між потоками на тому самому CCX, які не є резидентами того самого ядра. Збільшення тактової частоти призводить до більшого скорочення затримки на ~6 нс.

    Cross-CCX кількісно визначає затримку між потоками, розташованими на двох окремих CCX, і ми бачимо подібне зменшення завдяки розгону. Примітно, що Ryzen 7 1800X має набагато меншу затримку Cross-CCX, ніж стандартний Threadripper і більшість розігнаних конфігурацій. Ймовірно, це пов’язано з певною формою надання, можливо, в алгоритмах планування, для додаткового шару тканини Threadripper.

    Як ми бачимо, розігнаний процесор Threadripper в ігровому режимі, який не має активного зв’язку тканини з іншим кристалом, має найнижчу затримку Cross-CCX.

    Die-to-Die вимірює зв’язок між двома окремими кубиками Zeppelin. Ігровий режим ефективно вимикає другу кубику Zeppelin на рівні операційної системи, повністю усуваючи затримку. Ядро другого кристала все ще активне, що необхідно для того, щоб контролери вводу-виводу та пам’яті все ще були доступні.

    У режимі Creator найгірша затримка, але налаштування значно зменшує її. Два варіанти SMT (увімкнено та вимкнено) також отримують значні зниження завдяки нашим зусиллям з розгону.

    Утиліта також вимірює пропускну здатність мережі, що має вирішальне значення для продуктивності, оскільки витягування даних із віддаленої пам’яті також протікає через мережу. Таким чином, AMD надмірно надає структуру та підсистему пам’яті для оптимізації архітектури розподіленої пам’яті.

    Як режим Creator, так і конфігурації Local/SMT пропонують найкращу пропускну здатність, насолоджуючись великим прискоренням від розгону. Ryzen 7 1800X знаходиться в середині діаграми поряд з ігровим режимом Threadripper, що логічно, враховуючи, що вони обидва фактично є процесорами 8C/16T. Якщо вимкнути SMT, але залишити обидва матриці активними (локальний/SMT вимкнено), ви отримаєте унікальний профіль, який забезпечує вищу продуктивність при більших доступах і нижчу продуктивність при менших доступах.

    Затримка кешу та пам’яті

    Ми протестували пам’ять DDR4-2666 зі стандартними налаштуваннями та збільшили до DDR4-3200 для наших розігнаних конфігурацій.

    Буфер Translation Look Aside Buffer — це кеш, який скорочує час доступу, зберігаючи адреси пам’яті, до яких нещодавно зверталися. Як і всі кеш-пам’яті, TLB має обмежену ємність, тому запити на адресу TLB є «зверненнями», тоді як запити, які знаходяться за межами кешу, є «пропущеними». Звичайно, звернення є більш бажаними, а надійна продуктивність попередньої вибірки дає вищі показники звернень.

    Шаблони послідовного доступу майже повністю попередньо завантажуються в TLB, тому послідовний тест є хорошим показником продуктивності попередньої вибірки. Внутрішньосторінковий випадковий тест вимірює випадковий доступ до однієї сторінки пам’яті. Він також вимірює продуктивність TLB і представляє найкращу випадкову продуктивність (це постачальники вимірювань використовують для офіційних специфікацій). Повний випадковий тест містить комбінацію TLB-влучень і промахів з високою ймовірністю промахів, тому він кількісно визначає затримку в найгіршому випадку.

    Незалежно від схеми доступу до пам’яті, найменші фрагменти даних поміщаються в кеш L1. І оскільки розмір даних збільшується, вони заповнюють більші кеші.

    L1L2L3Основна пам’ять

    Діапазон
    2 КБ – 32 КБ
    32 КБ – 512 КБ
    512 КБ – 8 МБ
    8 МБ – 1 Гб

    Threadripper 1950X має кращу затримку L2 і L3, ніж Ryzen 7 1800X, з кожним типом шаблону доступу. Крім того, ми помічаємо помітне зниження затримки через розгін кешів Threadripper L1, L2 і L3.

    Це змінюється, коли робоче навантаження надходить в основну пам’ять. Режим Creator Threadripper (налаштування за замовчуванням) має найвищу затримку з кожним шаблоном доступу. Це є прямим результатом доступу до пам’яті, що потрапляє у віддалену пам’ять. Наші вимірювання на сторінці відображають специфікацію AMD 86,9 нс, але в гіршому випадку повний довільний доступ перевищує 120 нс. Розгін процесора та пам’яті зменшує затримку, але режим Creator все одно не обганяє жодну з конфігурацій, з якими ми його порівнюємо. 

    Перемикання в режим NUMA з локальним налаштуванням значно покращує доступ до основної пам’яті для інших конфігурацій. Ми вимірюємо приблизно 60 нс для доступу до пам’яті на сторінці, знову ж таки відповідно до специфікацій AMD, тоді як затримка в найгіршому випадку становить 100 нс.

    Пропускна здатність кешу

    Кожен CCX має власні кеші, тому процесор Threadripper має чотири різні кластери пам’яті L1, L2 і L3. Наш тест пропускної здатності ілюструє сукупну продуктивність цих рівнів. 

    Під час однопоточного тесту Ryzen 7 1800X демонструє нижчу пропускну здатність, ніж процесори Threadripper. Інші конфігурації об’єднуються у знайомі групи та групи з розгоном.

    Багатопотокові тести цікавіші; ми бачимо, що Ryzen 7 1800X і два режими Threadripper Game опускаються в нижню частину діаграми. Оскільки в ігровому режимі відключаються ядра на одному кубику, він фактично виводить з ладу відповідний кеш.

    0 0 голосів
    Rating post
    Підписатися
    Сповістити про
    guest
    0 comments
    Вбудовані Відгуки
    Переглянути всі коментарі
    0
    Ми любимо ваші думки, будь ласка, прокоментуйте.x