Saltar al contenido

Modo de juego AMD Ryzen Threadripper 1950X, comparado

    1645560003

    Probando el subsistema de memoria y tejido Infinity de Ryzen

    Latencia y ancho de banda de Infinity Fabric

    El travesaño de Infinity Fabric de 256 bits une los recursos dentro de un troquel de Zeppelin. Sin embargo, agregar un segundo troquel de Zeppelin para crear Threadripper introduce otra capa de la tela. Los accesos a la memoria caché siguen siendo locales para cada CCX, pero una gran cantidad de memoria, E/S y tráfico de hilo a hilo sigue fluyendo a través de esa segunda capa.

    Los entusiastas no tardaron mucho en darse cuenta de que Infinity Fabric de AMD está vinculado al mismo dominio de frecuencia que el controlador de memoria, por lo que un overclocking de memoria reduce la latencia y aumenta el ancho de banda a través de la barra transversal. En consecuencia, mejora el rendimiento en aplicaciones sensibles a la latencia (como juegos).

    La prueba de eficiencia multinúcleo del procesador de SiSoftware Sandra nos ayuda a ilustrar el rendimiento de Infinity Fabric. Usamos la métrica Multi-Threaded con la configuración de «mejor coincidencia de pares» (latencia más baja). La utilidad mide los tiempos de ping entre subprocesos para cuantificar la latencia de la estructura en todas las configuraciones posibles.

    Las medidas de latencia dentro del núcleo representan la comunicación entre dos subprocesos lógicos residentes en el mismo núcleo físico y, como podemos ver, al desactivar SMT se elimina esa medida por completo. Para las configuraciones restantes, el ajuste reduce la latencia en unos pocos nanosegundos. Pero esto es atribuible a velocidades de reloj más altas. Como hemos visto en el pasado, el aumento de las frecuencias de la memoria tiene poco efecto en la latencia dentro del núcleo.

    Las mediciones intra-CCX cuantifican la latencia entre subprocesos en el mismo CCX que no residen en el mismo núcleo. El aumento de la velocidad del reloj produce mayores reducciones de latencia de ~ 6 ns.

    Cross-CCX cuantifica la latencia entre subprocesos ubicados en dos CCX separados, y vemos una reducción similar gracias al overclocking. En particular, el Ryzen 7 1800X presenta una latencia Cross-CCX mucho más baja que el Threadripper estándar y la mayoría de las configuraciones overclockeadas. Es probable que esto se deba a alguna forma de aprovisionamiento, posiblemente en los algoritmos de programación, para la capa adicional de estructura de Threadripper.

    Como podemos ver, la CPU Threadripper overclockeada en modo Juego, que no tiene un enlace de tejido activo con el otro dado, tiene la latencia Cross-CCX más baja.

    Die-To-Die mide la comunicación entre los dos troqueles separados de Zeppelin. El modo de juego desactiva efectivamente el segundo dado de Zeppelin a nivel de sistema operativo, eliminando por completo la latencia de morir a morir. Sin embargo, el desnúcleo del segundo troquel todavía está activo, lo cual es necesario para garantizar que sus controladores de memoria y E/S aún estén accesibles.

    El modo creador sufre la peor latencia de muerte a muerte, pero el ajuste la reduce considerablemente. Las dos opciones de SMT (encendido y apagado) también reciben grandes reducciones de nuestros esfuerzos de overclocking.

    La utilidad también mide el ancho de banda de la estructura, lo cual es fundamental para el rendimiento, ya que las recuperaciones de datos de la memoria remota también fluyen a través de la estructura. Como tal, AMD sobreaprovisiona la estructura y el subsistema de memoria para optimizar la arquitectura de memoria distribuida.

    Tanto el modo Creador como las configuraciones Local/SMT ofrecen el mejor ancho de banda de estructura y disfrutan de grandes mejoras gracias al overclocking. El Ryzen 7 1800X se encuentra en el medio de la tabla junto con el modo de juego de Threadripper, lo cual es lógico si se tiene en cuenta que ambos son procesadores 8C/16T. La desactivación de SMT pero dejando ambos troqueles activos (Local/SMT desactivado) produce un perfil único que proporciona un mayor rendimiento con accesos más grandes y un rendimiento más bajo con accesos más pequeños.

    Caché y latencia de memoria

    Probamos con memoria DDR4-2666 en la configuración estándar y aumentamos a DDR4-3200 para nuestras configuraciones overclockeadas.

    Translation Look Aside Buffer es un caché que reduce los tiempos de acceso al almacenar las direcciones de memoria a las que se accedió recientemente. Como todos los cachés, la TLB tiene una capacidad limitada, por lo que las solicitudes de direcciones que llegan a la TLB son «aciertos», mientras que las solicitudes que llegan fuera de la caché son «errores». Por supuesto, los aciertos son más deseables, y el rendimiento sólido del captador previo produce tasas de aciertos más altas.

    Los patrones de acceso secuencial se capturan casi por completo en la TLB, por lo que la prueba secuencial es una buena medida del rendimiento del captador previo. La prueba aleatoria en la página mide los accesos aleatorios dentro de la misma página de memoria. También mide el rendimiento de TLB y representa el rendimiento aleatorio en el mejor de los casos (esta es la medida que usan los proveedores para las hojas de especificaciones oficiales). La prueba aleatoria completa presenta una combinación de aciertos y errores de TLB, con una gran probabilidad de errores, por lo que cuantifica la latencia en el peor de los casos.

    Independientemente del patrón de acceso a la memoria, los fragmentos de datos más pequeños caben en la caché L1. Y a medida que aumenta el tamaño de los datos, llena los cachés más grandes.

    L1L2L3Memoria principal

    Rango
    2 KB – 32 KB
    32 KB – 512 KB
    512 KB – 8 MB
    8 MB – 1 GB

    Threadripper 1950X presenta una mejor latencia L2 y L3 que el Ryzen 7 1800X con todo tipo de patrón de acceso. Además, detectamos reducciones de latencia notables a través del overclocking para los cachés L1, L2 y L3 de Threadripper.

    Eso cambia a medida que la carga de trabajo fluye hacia la memoria principal. El modo Creador de Threadripper (la configuración predeterminada) tiene la latencia más alta con cada patrón de acceso. Este es un resultado directo de los accesos a la memoria que aterrizan en la memoria remota. Nuestras medidas en la página reflejan la especificación de 86,9 ns de AMD, pero el acceso aleatorio completo en el peor de los casos supera los 120 ns. El overclocking del procesador y la memoria reduce la latencia, pero el modo Creator aún no supera ninguna de las configuraciones con las que lo comparamos. 

    Cambiar al modo NUMA con la configuración Local mejora drásticamente el acceso a la memoria principal para las otras configuraciones. Medimos ~60 ns para el acceso a la memoria cercana en la página, nuevamente en línea con las especificaciones de AMD, mientras que la latencia en el peor de los casos pesa 100 ns.

    Ancho de banda de caché

    Cada CCX tiene sus propios cachés, por lo que una CPU Threadripper presenta cuatro grupos distintos de memoria L1, L2 y L3. Nuestro punto de referencia de ancho de banda ilustra el rendimiento agregado de estos niveles. 

    Durante la prueba de subproceso único, Ryzen 7 1800X demuestra un rendimiento más bajo que los procesadores Threadripper. Las otras configuraciones se agrupan en stock familiar y grupos overclockeados.

    Las pruebas de subprocesos múltiples son más interesantes; vemos que Ryzen 7 1800X y los dos modos Threadripper Game caen al final de la tabla. Debido a que el modo Juego desactiva los núcleos en un dado, efectivamente deja fuera de servicio el caché correspondiente.

    0 0 votes
    Rating post
    Subscribe
    Notify of
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x
    ()
    x