Conheça GP102
Nota do editor: Atualizamos o artigo para incluir medições de energia, calor e ruído nas páginas sete e oito, e editamos nossa conclusão para refletir essas medições (consulte a página 10).
Você tem um talento especial para negociar a libra britânica contra o iene japonês. Você tem uma receita de molho quente matadora, e está em distribuição em todo o mundo. Você acabou de se tornar sócio da firma do seu sogro. Seja qual for o caso, você está nesse grupo de elite que realmente não se preocupa com dinheiro. Você tem a casa de praia, o Bentley e o Bulgari. E agora a Nvidia tem uma placa de vídeo para o seu PC para jogos: o Titan X. Ele é construído em um novo processador gráfico GP102 com 3584 núcleos CUDA, apoiado por 12 GB de memória GDDR5X em um barramento de 384 bits e oferecido sem remorso por US$ 1200.
Antes que um único benchmark fosse publicado, a Nvidia recebeu elogios por lançar uma terceira GPU baseada em Pascal em poucos meses e críticas por aumentar o preço de seu carro-chefe – uma abordagem que queimou a Intel quando introduziu o Core i7-6950X em um valor sem precedentes de US $ 1.700 + . Aqui está a coisa, porém: as pessoas que compram o melhor dos melhores não são afetadas por um imposto de luxo rastejante. E aqueles que realmente ganham dinheiro com seus PCs pagam alegremente prêmios por hardware capaz de acelerar seus rendimentos.
Tudo isso torna nosso tempo com o Titan X um pouco menos estranho, pensamos. Não há consideração de valor da manhã seguinte. Você paga 70% a mais do que o custo de uma GeForce GTX 1080 por 40% mais núcleos CUDA e um aumento de 50% na largura de banda da memória. Sabíamos antes mesmo de receber um cartão que o desempenho não seria compatível com o custo. Ainda assim, mal podíamos esperar para executar os benchmarks. O Titan X melhora as taxas de quadros em 4K o suficiente para satisfazer os quarterbacks de poltrona rápidos em chamar 1080 insuficiente para jogos de qualidade máxima? Só há uma maneira de descobrir.
GP102: É como GP104, exceto maior
Com sua GeForce GTX 1080, a Nvidia nos apresentou o processador GP104 (Pascal high-end). Em espírito, essa GPU sucedeu ao GM204 (Maxwell high-end), visto pela última vez no coração da GeForce GTX 980. Mas como a arquitetura Pascal foi programada para coincidir com a fabricação FinFET de 16nm e memória GDDR5X mais rápida, a GTX 1080 resultante não teve problemas para colocar 30%+ taxas de quadros médias mais altas do que GTX 980 Ti e Titan X, ambas equipadas com GM200 (Maxwell ultra high-end). Isso facilitou o esquecimento do próximo passo, principalmente porque sabíamos que o GP100 de 15,3 bilhões de transistores (Pascal de última geração) era orientado a computação e provavelmente não era destinado ao desktop.
Agora, pela primeira vez, temos uma espécie de GPU interpoladora, cercada pelo processador de ponta da Nvidia e GP104. Este é chamado GP102, e arquitetonicamente é semelhante ao GP104, só que maior. Quatro Clusters de Processamento Gráfico se tornam seis. Por sua vez, 20 Multiprocessadores de Streaming se tornam 30. E com 128 núcleos FP32 CUDA por SM, o GP102 possui até 3840 dos blocos de construção programáveis. O GP102 é incrivelmente complexo (é composto por 12 bilhões de transistores). Como forma de melhorar os rendimentos, a Nvidia desativa dois dos SMs do processador para seu Titan X, reduzindo a contagem de núcleos CUDA da placa para 3584. E como cada SM também hospeda oito unidades de textura, desligar dois deles deixa 224 unidades de textura ativadas.
A especificação do Titan X cita um clock base de 1417 MHz, com frequências típicas de GPU Boost na faixa de 1531 MHz. Isso dá à placa uma taxa de FP32 de 10,1+ TFLOPS, que é aproximadamente 23% maior que a GeForce GTX 1080.
Sem dúvida, o GP104 teria se beneficiado de uma interface de memória ainda mais ampla, principalmente em 4K. Mas o maior potencial de sombreamento/texturização do GP102 definitivamente exige uma espécie de reequilíbrio. Assim, o back-end do processador cresce para incluir 12 controladores de memória de 32 bits, cada um vinculado a oito ROPs e 256 KB de L2 (como no GP104), resultando em um total de 96 ROPs e 3 MB de cache compartilhado. Isso resulta em um caminho agregado de 384 bits, que a Nvidia preenche com 12 GB do mesmo GDDR5X de 10 Gb/s encontrado na GTX 1080.
A largura de banda teórica da memória da placa é de 480 GB/s (contra 320 GB/s da 1080 – um aumento de 50%), embora a taxa de transferência efetiva deva ser maior depois de levar em consideração as melhorias na compactação de cores delta da arquitetura Pascal.
Por que o uso contínuo da tecnologia derivada de GDDR5 quando a AMD nos mostrou os muitos benefícios da HBM há mais de um ano? Podemos apenas imaginar que, durante a fase de design do GP102, a Nvidia não tinha certeza de como o fornecimento do HBM2 iria acontecer e, em vez disso, jogou pelo seguro com um subsistema baseado em GDDR5X. A GP100 continua sendo a única GPU em sua linha com HBM2.
GPUTitan X (GP102)GeForce GTX 1080 (GP104)Titan X (GM100) SMs CUDA Cores Base Clock GPU Boost Clock GFLOPs (Base Clock) Unidades de textura Texel Fill Rate Memória Data Rate Memória Bandwidth ROPs L2 Cache TDP Transistores Die Size Process Node
28
20
24
3584
2560
3072
1417 MHz
1607 MHz
1000 MHz
1531MHz
1733MHz
1075 MHz
10.157
8228
6144
224
160
192
342,9 GT/s
277,3 GT/s
192 GT/s
10 Gb/s
10 Gb/s
7 Gb/s
480 GB/s
320 GB/s
336,5 GB/s
96
64
96
3 MB
2 MB
3 MB
250 W
180 W
250 W
12 bilhões
7,2 bilhões
8 bilhões
471 mm²
314 mm²
601 mm²
16nm
16nm
28nm
É interessante que a Nvidia, aparentemente no último minuto, tenha escolhido distanciar o Titan X de sua família GeForce. A página de destino do Titan X no geforce.com chama isso de placa gráfica definitiva. Não é a melhor placa gráfica para jogos. Em vez disso, “O Último. Período.” Claro, considerando que estamos lidando com um GP104 de tamanho grande, o Titan X deve ser bom em jogos.
Mas a decisão da empresa de revelar o Titan X em um encontro de IA hospedado em Stanford mostra que está se concentrando no aprendizado profundo desta vez. Para esse fim, enquanto as taxas de FP16 e FP64 são terrivelmente lentas no GP104 (e, por extensão, no GP102), ambos os processadores suportam INT8 a 4:1, produzindo 40,6 TOPS na frequência base do Titan X.