Conoce GP102
Nota del editor: Hemos actualizado el artículo para incluir mediciones de potencia, calor y ruido en las páginas siete y ocho, y hemos editado nuestra conclusión para reflejar esas mediciones (consulte la página 10).
Tienes una habilidad especial para cambiar la libra esterlina frente al yen japonés. Tienes una receta de salsa picante excelente y se distribuye en todo el mundo. Acabas de ser socio de la firma de tu suegro. En cualquier caso, estás en ese grupo de élite que realmente no se preocupa por el dinero. Tienes la casa de la playa, el Bentley y el Bulgari. Y ahora Nvidia tiene una tarjeta gráfica para su PC de juegos: la Titan X. Está construida sobre un nuevo procesador de gráficos GP102 con 3584 núcleos CUDA, respaldado por 12 GB de memoria GDDR5X en un bus de 384 bits y se ofrece sin disculpas a $1200.
Antes de que se publicara un solo punto de referencia, Nvidia recibió elogios por lanzar una tercera GPU basada en Pascal en tantos meses y críticas por aumentar el precio de su buque insignia, un enfoque que quemó a Intel cuando presentó Core i7-6950X a un precio sin precedentes de más de $ 1700 . Sin embargo, aquí está la cosa: las personas que compran lo mejor de lo mejor no se ven afectadas por un impuesto de lujo progresivo. Y aquellos que realmente ganan dinero con sus PC alegremente pagan primas por hardware capaz de acelerar sus ingresos.
Creemos que todo eso hace que nuestro tiempo con el Titan X sea un poco menos incómodo. No hay consideración de valor de la mañana siguiente. Paga un 70 % más que el costo de una GeForce GTX 1080 por un 40 % más de núcleos CUDA y un 50 % más de ancho de banda de memoria. Sabíamos incluso antes de recibir una tarjeta que el rendimiento no escalaría con el costo. Aún así, no podíamos esperar para ejecutar los puntos de referencia. ¿Titan X mejora la velocidad de fotogramas en 4K lo suficiente como para satisfacer a los mariscales de campo de sillón que rápidamente llaman 1080 insuficiente para juegos de máxima calidad? Solo hay una manera de averiguarlo.
GP102: Es como GP104, excepto que es más grande
Con su GeForce GTX 1080, Nvidia nos presentó el procesador GP104 (Pascal de gama alta). En espíritu, esa GPU sucedió a GM204 (Maxwell de gama alta), vista por última vez en el corazón de GeForce GTX 980. Pero debido a que la arquitectura Pascal se programó para coincidir con la fabricación FinFET de 16 nm y una memoria GDDR5X más rápida, la GTX 1080 resultante no tuvo problemas para poner un 30 % más de velocidad de fotogramas promedio más alta que la GTX 980 Ti y Titan X, ambas con tecnología GM200 (Maxwell de gama ultra alta). Esto facilitó el olvido del siguiente paso, sobre todo porque sabíamos que el GP100 de 15.300 millones de transistores (Pascal de gama ultraalta) estaba orientado a la computación y probablemente no estaba destinado al escritorio.
Ahora, por primera vez, tenemos una especie de GPU ‘tweener’, rodeada por el procesador de gama más alta de Nvidia y GP104. Este se llama GP102, y arquitectónicamente es similar al GP104, solo que más grande. Cuatro clústeres de procesamiento de gráficos se convierten en seis. A su vez, 20 multiprocesadores de transmisión se convierten en 30. Y con 128 núcleos FP32 CUDA por SM, GP102 maneja hasta 3840 de los componentes básicos programables. Sin embargo, GP102 es increíblemente complejo (está compuesto por 12 mil millones de transistores). Como medio para mejorar los rendimientos, Nvidia deshabilita dos de los SM del procesador para su Titan X, lo que hace que el recuento de núcleos CUDA de la placa se reduzca a 3584. Y debido a que cada SM también alberga ocho unidades de textura, apagar dos de ellos deja habilitadas 224 unidades de textura.
La especificación de Titan X cita un reloj base de 1417 MHz, con frecuencias GPU Boost típicas en el rango de 1531 MHz. Eso le da a la tarjeta una tasa FP32 de 10.1+ TFLOPS, que es aproximadamente un 23 % más alta que la GeForce GTX 1080.
Sin duda, la GP104 se habría beneficiado de una interfaz de memoria aún más amplia, especialmente en 4K. Pero el mayor potencial de sombreado/texturizado de GP102 definitivamente requiere una especie de reequilibrio. Como tal, el back-end del procesador crece para incluir 12 controladores de memoria de 32 bits, cada uno vinculado a ocho ROP y 256 KB de L2 (como con GP104), lo que da un total de 96 ROP y 3 MB de caché compartida. Esto da como resultado una ruta agregada de 384 bits, que Nvidia completa con 12 GB de la misma GDDR5X de 10 Gb/s que se encuentra en GTX 1080.
El ancho de banda de memoria teórico de la tarjeta es de 480 GB/s (frente a los 320 GB/s de 1080, un aumento del 50 %), aunque el rendimiento efectivo debería ser mayor después de tener en cuenta las mejoras de compresión de color delta de la arquitectura Pascal.
¿Por qué el uso continuo de la tecnología derivada de GDDR5 cuando AMD nos mostró los muchos beneficios de HBM hace más de un año? Solo podemos imaginar que durante la fase de diseño del GP102, Nvidia no estaba segura de cómo se vería afectado el suministro de HBM2 y, en cambio, jugó a lo seguro con un subsistema basado en GDDR5X. GP100 sigue siendo la única GPU en su línea con HBM2.
GPUTitan X (GP102)GeForce GTX 1080 (GP104)Titan X (GM100) SMs Núcleos CUDA Reloj base GPU Boost Clock GFLOP (Reloj base) Unidades de textura Velocidad de relleno de Texel Velocidad de datos de memoria Ancho de banda de memoria ROP Caché L2 TDP Transistores Tamaño de troquel Nodo de proceso
28
20
24
3584
2560
3072
1417 MHz
1607 MHz
1000 MHz
1531 MHz
1733 MHz
1075 MHz
10,157
8228
6144
224
160
192
342,9 GT/s
277,3 GT/s
192 GT/s
10 GB/s
10 GB/s
7 GB/s
480 GB/s
320 GB/s
336,5 GB/s
96
64
96
3 MB
2 MB
3 MB
250W
180W
250W
12 mil millones
7.2 mil millones
8 mil millones
471mm²
314 mm²
601 mm²
16nm
16nm
28nm
Es interesante que Nvidia, aparentemente en el último minuto, optó por distanciar a Titan X de su familia GeForce. La página de inicio de Titan X en geforce.com llama a esto la tarjeta gráfica definitiva. No es la última tarjeta gráfica para juegos. Más bien, “Lo último. Período.» Por supuesto, dado que estamos tratando con un GP104 de mayor tamaño, Titan X debería ser bueno para jugar.
Pero la decisión de la compañía de presentar Titan X en una reunión de IA organizada por Stanford demuestra que esta vez se está enfocando en el aprendizaje profundo. Con ese fin, mientras que las velocidades de FP16 y FP64 son terriblemente lentas en GP104 (y, por extensión, en GP102), ambos procesadores admiten INT8 a 4:1, lo que produce 40,6 TOPS en la frecuencia base de Titan X.