Перейти к содержимому

Игровой режим AMD Ryzen Threadripper 1950X, тестирование

    1645560003

    Тестирование Infinity Fabric и подсистемы памяти Ryzen

    Задержка и пропускная способность Infinity Fabric

    256-битная перемычка Infinity Fabric связывает ресурсы внутри кристалла Zeppelin вместе. Однако добавление второго кристалла Zeppelin для создания Threadripper вводит еще один слой ткани. Доступ к кэшу остается локальным для каждого CCX, но большой объем памяти, операций ввода-вывода и межпотокового трафика по-прежнему проходит через этот второй уровень.

    Энтузиастам не потребовалось много времени, чтобы понять, что AMD Infinity Fabric привязана к той же частотной области, что и контроллер памяти, поэтому разгон памяти снижает задержку и увеличивает пропускную способность через перекладину. Следовательно, производительность в приложениях, чувствительных к задержкам (например, в играх), улучшается.

    Тест SiSoftware Sandra Processor Multi-Core Efficiency помогает нам проиллюстрировать производительность Infinity Fabric. Мы используем метрику Multi-Threaded с настройкой «лучшее совпадение пары» (самая низкая задержка). Утилита измеряет время проверки связи между потоками для количественной оценки задержки структуры в каждой возможной конфигурации.

    Измерения задержки внутри ядра представляют собой связь между двумя логическими потоками, расположенными на одном физическом ядре, и, как мы видим, отключение SMT полностью исключает это измерение. Для остальных настроек настройка уменьшает задержку на несколько наносекунд. Но это связано с более высокими тактовыми частотами. Как мы видели в прошлом, увеличение частоты памяти мало влияет на внутриядерную задержку.

    Измерения внутри CCX определяют задержку между потоками в одном и том же CCX, которые не находятся на одном ядре. Увеличение тактовой частоты приводит к большему сокращению задержки на ~ 6 нс.

    Cross-CCX количественно определяет задержку между потоками, расположенными на двух отдельных CCX, и мы видим аналогичное сокращение благодаря разгону. Примечательно, что Ryzen 7 1800X имеет гораздо меньшую задержку Cross-CCX, чем стандартный Threadripper и большинство разогнанных конфигураций. Вероятно, это связано с некоторой формой подготовки, возможно, в алгоритмах планирования, для дополнительного слоя структуры Threadripper.

    Как мы видим, разогнанный процессор Threadripper в игровом режиме, который не имеет активной связи с другим кристаллом, имеет наименьшую задержку Cross-CCX.

    Die-To-Die измеряет связь между двумя отдельными штампами Zeppelin. Игровой режим эффективно отключает второй кристалл Zeppelin на уровне операционной системы, полностью устраняя задержку между кристаллами. Тем не менее, uncore второго кристалла все еще активен, что необходимо для обеспечения доступности его контроллеров ввода-вывода и памяти.

    Режим Creator страдает наибольшей задержкой от кристалла к кристаллу, но настройка значительно снижает ее. Две опции SMT (вкл. и выкл.) также значительно сокращают наши усилия по разгону.

    Утилита также измеряет пропускную способность фабрики, что имеет решающее значение для производительности, поскольку выборка данных из удаленной памяти также проходит через фабрику. Таким образом, AMD выделяет избыточные ресурсы для фабрики и подсистемы памяти, чтобы оптимизировать архитектуру распределенной памяти.

    Как режим Creator, так и конфигурации Local/SMT обеспечивают наилучшую пропускную способность коммутационной сети, а также значительный прирост от разгона. Ryzen 7 1800X находится в середине таблицы вместе с игровым режимом Threadripper, что логично, учитывая, что они оба являются процессорами 8C/16T. Отключение SMT, но оставление обоих кристаллов активными (Local/SMT off) дает уникальный профиль, который обеспечивает более высокую производительность при большем доступе и более низкую производительность при меньшем доступе.

    Задержка кэша и памяти

    Мы протестировали память DDR4-2666 со стандартными настройками и увеличили ее до DDR4-3200 для наших разогнанных конфигураций.

    Отложенный буфер перевода — это кэш, который сокращает время доступа за счет хранения недавно использованных адресов памяти. Как и все кэши, TLB имеет ограниченную емкость, поэтому запросы адресов, попадающие в TLB, считаются «попаданиями», а запросы, попадающие за пределы кэша, — «промахами». Конечно, совпадения более желательны, а хорошая производительность предварительной выборки обеспечивает более высокий процент попаданий.

    Шаблоны последовательного доступа почти полностью предварительно загружаются в TLB, поэтому последовательный тест является хорошей мерой производительности предварительной выборки. Внутристраничный случайный тест измеряет случайный доступ к одной и той же странице памяти. Он также измеряет производительность TLB и представляет наилучшую случайную производительность (это измерение, которое поставщики используют для официальных спецификаций). Полный случайный тест включает сочетание попаданий и промахов TLB с высокой вероятностью промахов, поэтому он количественно определяет задержку в наихудшем случае.

    Независимо от шаблона доступа к памяти, самые маленькие фрагменты данных помещаются в кэш L1. И по мере увеличения размера данных они заполняют большие кеши.

    L1L2L3Основная память

    Диапазон
    2 КБ — 32 КБ
    32 КБ — 512 КБ
    512 КБ — 8 МБ
    8 МБ — 1 ГБ

    Threadripper 1950X обеспечивает лучшую задержку L2 и L3, чем Ryzen 7 1800X, с каждым типом шаблона доступа. Кроме того, мы заметили заметное сокращение задержки за счет разгона кэшей Threadripper L1, L2 и L3.

    Это меняется по мере того, как рабочая нагрузка перетекает в основную память. Режим Creator в Threadripper (настройка по умолчанию) имеет наибольшую задержку для каждого шаблона доступа. Это прямой результат обращения к памяти в удаленной памяти. Наши измерения на странице отражают спецификацию AMD 86,9 нс, но в худшем случае полный произвольный доступ превышает 120 нс. Разгон процессора и памяти снижает задержку, но режим Creator по-прежнему не превосходит ни одну из конфигураций, с которыми мы его сравниваем. 

    Переключение в режим NUMA с настройкой Local значительно улучшает доступ к основной памяти для других конфигураций. Мы измеряем ~ 60 нс для доступа к памяти на странице, что опять же соответствует спецификациям AMD, в то время как задержка в худшем случае составляет 100 нс.

    Пропускная способность кэша

    Каждый CCX имеет свои собственные кэши, поэтому ЦП Threadripper имеет четыре отдельных кластера памяти L1, L2 и L3. Наш тест пропускной способности иллюстрирует совокупную производительность этих уровней. 

    В однопоточном тесте Ryzen 7 1800X демонстрирует меньшую пропускную способность, чем процессоры Threadripper. Другие конфигурации объединяются в знакомые стандартные и разогнанные группы.

    Многопоточные тесты интереснее; мы видим, что Ryzen 7 1800X и два игровых режима Threadripper находятся в нижней части диаграммы. Поскольку игровой режим отключает ядра на одном кристалле, он фактически выводит из строя соответствующий кэш.

    0 0 голоса
    Rating post
    Подписаться
    Уведомить о
    guest
    0 comments
    Межтекстовые Отзывы
    Посмотреть все комментарии
    0
    Оставьте комментарий! Напишите, что думаете по поводу статьи.x