Avançar para o conteúdo

Análise da AMD Radeon RX 480 8GB

    1650103202

    Conheça Polaris 10

    Seis meses atrás, a AMD começou a divulgar os recursos que suas GPUs de última geração ofereceriam, começando com um controlador de exibição renovado para suportar HDMI 2.0b e DisplayPort 1.3 HBR3, FreeSync sobre HDMI e um pipeline compatível com HDR. Outros bits e peças surgiram nas semanas que se seguiram, apontando para um lançamento que incluiria duas GPUs distintas construídas deliberadamente para recuperar participação de mercado no mercado de desktops convencional e apresentar uma solução móvel oferecendo desempenho de classe de console em formatos finos e leves.

    Esse último design inclui 16 unidades de computação da AMD combinadas com um barramento de memória de 128 bits e aceleração de codificação/decodificação de vídeo 4K. Ainda está por vir. A Radeon RX 480 que temos hoje é baseada no design maior do Polaris 10. Mas não é grande no sentido de que o processador GP100 de 15,3 bilhões de transistores da Nvidia é grande. Em vez disso, a GPU é complexa o suficiente para conduzir os fones de ouvido de realidade virtual de última geração de hoje, colocando-a pelo menos na liga da Radeon R9 290 da AMD e da GeForce GTX 970 da Nvidia.

    O desempenho de médio alcance não vai derrubar as meias de ninguém por conta própria, especialmente um mês depois que o GP104 redefiniu o topo de linha. Mas ao precificar a Radeon RX 480 bem abaixo das placas igualmente rápidas e limitar o consumo de energia a 150W, a AMD espera tornar a VR acessível a mais jogadores (se apenas as empresas que vendem HMDs de US$ 600 e US$ 800 se adaptassem).

    Esperamos duas versões da Radeon RX 480: um modelo de US$ 200 com 4 GB de GDDR5 integrado operando a 7 Gb/s e uma versão de US$ 240 com 8 GB de GDDR5 de 8 Gb/s. Naturalmente, temos o de 8 GB disponível.

    Dentro do Polaris 10

    O Polaris 10 é composto por 5,7 bilhões de transistores em uma matriz de 230 mm². Compare isso com os 6,2 bilhões de transistores do Havaí em uma matriz de 438 mm². Como você verá em nossas páginas de benchmark, o RX 480 normalmente fica em algum lugar entre R9 290 e 390… com menos transistores e cerca de 55% do orçamento de energia. Muito disso é naturalmente atribuível ao processo FinFET de 14 nm da GlobalFoundries, que a AMD credita por fornecer desempenho fundamental e benefícios de energia sobre os transistores planares do nó de 28 nm. Em qualquer nível de potência, o FinFET permite clocks mais altos. Em uma frequência escolhida, um dispositivo de 14nm usa menos energia. Para Polaris, a AMD está pegando de ambos os compartimentos para aumentar as taxas de clock e reduzir o consumo. É assim que ele é capaz de superar GPUs mais ricas em recursos como o Hawaii em um teto de 150W (embora nossas medições mostrem que o RX 480 fuja um pouco em seu TDP).

    Apesar do novo codinome, Polaris 10 é baseado em uma implementação de quarta geração da arquitetura Graphics Core Next da AMD. Com isso em mente, a maioria dos entusiastas já familiarizados com o GCN vão reconhecer os blocos de construção do design Polaris, tornando nosso passo a passo bastante simples.

    Especificações

    AMD Radeon RX 480

    AMD Radeon R9 390

    AMD Radeon R9 290

    Um único processador de comando gráfico ainda é responsável por despachar filas de gráficos para os Shader Engines. Os mecanismos de computação assíncronos também são encarregados de lidar com filas de computação. Só agora a AMD diz que sua lógica de processamento de comandos consiste em quatro ACEs em vez de oito, com duas unidades de Hardware Scheduler para filas priorizadas, gerenciamento de recursos temporais/espaciais e descarregamento de tarefas de agendamento de driver no modo kernel da CPU. Esses não são blocos separados ou novos em si, mas sim um modo opcional em que os pipelines existentes podem ser executados. Dave Nalasco, gerente sênior de tecnologia de gráficos da AMD, ajuda a esclarecer seu propósito:

    “Os HWS (Hardware Workgroup/Wavefront Schedulers) são essencialmente pipelines ACE que são configurados sem controladores de despacho. Seu trabalho é descarregar a CPU manipulando o agendamento de filas de usuário/driver nos slots de fila de hardware disponíveis. Eles são processadores programáveis ​​por microcódigo que pode implementar uma variedade de políticas de agendamento. Nós os usamos para implementar os recursos Quick Response Queue e CU Reservation no Polaris, e conseguimos portar essas alterações para produtos GCN de terceira geração com atualizações de driver.”

    As filas de resposta rápida permitem que os desenvolvedores priorizem determinadas tarefas executadas de forma assíncrona sem impedir completamente outros processos. Caso você tenha perdido a postagem do blog de Dave sobre esse recurso, confira aqui. Em resumo, porém, a flexibilidade é o ponto que a AMD quer levar para casa. Sua arquitetura permite várias abordagens para melhorar a utilização e minimizar a latência, ambas extremamente importantes em aplicativos como VR.

    As unidades de computação que conhecemos tão bem consistem em 64 shaders compatíveis com IEEE 754-2008 divididos entre quatro unidades vetoriais, uma unidade escalar e 16 unidades de carregamento/armazenamento de busca de textura. Cada CU também hospeda quatro unidades de textura, 16 KB de cache L1, um compartilhamento de dados local de 64 KB e espaço de registro para as unidades vetoriais e escalares. A AMD diz que fez vários ajustes para melhorar a eficiência da CU, incluindo a adição de suporte nativo FP16 (e Int16), acesso ajustado ao cache e melhor pré-busca de instruções. Ao todo, as mudanças supostamente rendem até 15% mais desempenho por CU do que a GPU Hawaii da Radeon R9 290, que é baseada em uma arquitetura GCN de segunda geração.

    Nove CUs são organizadas em um Shader Engine, e o Polaris 10 possui quatro desses SEs, consistentes com o que sabemos ser o máximo da arquitetura. A matemática (64 shaders * nove CUs * quatro SEs) soma 2304 processadores Stream e 144 unidades de textura.

    Cada Shader Engine está associado a um Geometry Engine, que a AMD diz melhorar adicionando um acelerador de descarte primitivo para lançar qualquer primitivo que não seja rasterizado em um pixel antes da conversão de varredura, aumentando assim a taxa de transferência. Essa é uma função automática do estágio de pré-rasterização do pipeline gráfico e é totalmente nova no Polaris. Há também um cache de índice para geometria instanciada, embora não tenhamos certeza de quão grande é ou quão significativo é seu impacto quando a instanciação é usada.

    Semelhante ao Havaí, o Polaris 10 é capaz de até quatro primitivos por ciclo de clock. Mas enquanto as GPUs baseadas no Havaí/Grenada mais rápidas rodam a até 1050MHz (no caso do R9 390X), a AMD empurra a Radeon RX 480 para uma frequência base de 1120MHz e uma classificação de “aumento” de 1266MHz, compensando parte do que ele perde em recursos on-die usando frequências mais altas. Enquanto a Radeon R9 290X oferecia 5,6 TFLOPS de desempenho de ponto flutuante de precisão simples, a RX 480 alcança até 5,8 TFLOPS usando essa especificação de “aumento”.

    Quão realista é o número de 1266MHz? O Havaí teve um grande problema em manter a especificação de clock da AMD quando ficou quente, e queríamos garantir que o mesmo comportamento não afetasse Polaris. Usando o benchmark integrado do Metro: Last Light Redux fez um loop 10 vezes, gravamos frequências usando GPU-Z e obtivemos o seguinte gráfico:

    Há exatamente 148 MHz entre os pontos mais baixo e mais alto neste gráfico de linhas. O piso é 1118MHz e o teto é 1265MHz. Diríamos que a AMD atinge sua base e aumenta as classificações quase exatamente, mesmo que o que acontece no meio esteja sujeito a ajustes constantes. Pelo menos uma média de 1208MHz está mais próxima do topo do que do fundo.

    Os SEs do Havaí e Fiji têm quatro back-ends de renderização cada, capazes de 16 pixels por clock (ou 64 na GPU). Polaris 10 corta esse número pela metade. Dois back-ends de renderização por SE, cada um com quatro ROPs, totalizando 32 pixels por clock. Esta é uma redução significativa em comparação com a Radeon R9 290 baseada no Havaí que a AMD precisa vencer com seu RX 480. Para piorar as coisas, o Polaris 10 emprega um barramento de memória de 256 bits – muito mais estreito que o caminho agregado de 512 bits do Havaí. Uma versão de 4 GB da Radeon RX 480 incluirá 7 Gb/s GDDR5, permitindo 224 GB/s de largura de banda, enquanto o modelo de 8 GB que estamos testando hoje utiliza memória de 8 Gb/s, aumentando a taxa de transferência para 256 GB/s. Ainda assim, é muito menos do que os 320 GB/s do R9 290.

    Parte do déficit é compensado com a compactação de cores delta aprimorada, que reduz a quantidade de informações transferidas pelo barramento. A AMD agora suporta proporções sem perdas de 2/4/8:1, semelhante à arquitetura Pascal da Nvidia. O Polaris 10 também se beneficia do cache L2 maior de 2 MB visto pela primeira vez em Fiji. Isso pode ajudar a diminuir as viagens para GDDR5, reduzindo ainda mais a dependência da GPU em um barramento amplo e altas taxas de dados.

    Ainda assim, inclinar o back-end da GPU deve ter um impacto no desempenho à medida que a resolução e a utilização de anti-aliasing aumentam. Curioso sobre como Polaris se compara ao Havaí à medida que a carga de trabalho se intensifica, iniciamos Grand Theft Auto V em modestos 1920×1080 com configurações de detalhes muito altas e começamos a aumentar o anti-aliasing.

    Com certeza, você pode ver a Radeon RX 480 perdendo a taxa de quadros média muito mais rápido do que a R9 390, pois o MSAA é alternado de Desligado para 2x para 4x. Com o AA desabilitado, o 480 atinge 97,3 FPS para 90,4 do 390. Mas no final, a Radeon RX 480 da AMD caiu para 57,5 ​​quadros por segundo, enquanto a 390 tem uma média de 62,9.

    0 0 votes
    Rating post
    Subscribe
    Notify of
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x