Skip to content

AMD Radeon RX 480 8GB 评测

    1650103202

    认识北极星 10

    六个月前,AMD 开始展示其下一代 GPU 将提供的功能,首先是改进的显示控制器以支持 HDMI 2.0b 和 DisplayPort 1.3 HBR3、基于 HDMI 的 FreeSync 和支持 HDR 的管道。随后的几周内出现了其他一些零碎的东西,其中包括两个不同的 GPU,这些 GPU 是为了在主流台式机市场夺回市场份额而精心设计的,并提供了一种移动解决方案,以轻薄的外形提供控制台级性能。

    后一种设计包括与 128 位内存总线和 4K 视频编码/解码加速相匹配的 16 个 AMD 计算单元。它仍然即将到来。我们今天拥有的 Radeon RX 480 基于更大的 Polaris 10 设计。但从 Nvidia 的 153 亿晶体管 GP100 处理器大的意义上来说,它并不大。相反,GPU 的复杂程度足以驱动当今最高端的虚拟现实耳机,至少可以与 AMD 的 Radeon R9 290 和 Nvidia 的 GeForce GTX 970 媲美。

    中端性能本身不会让任何人大吃一惊,尤其是在 GP104 重新定义高端产品一个月之后。但是通过将 Radeon RX 480 定价远低于类似的快速主板并将功耗限制在 150W,AMD 希望让更多游戏玩家能够使用 VR(如果只有销售 600 美元和 800 美元 HMD 的公司愿意参与的话)。

    我们期待 Radeon RX 480 的两个版本:一个 200 美元的型号,配备 4GB 板载 GDDR5,运行速度为 7 Gb/s,另一个版本 240 美元,配备 8GB 的​​ 8 Gb/s GDDR5。当然,我们手头有 8GB。

    Polaris 10 内部

    Polaris 10 由 57 亿个晶体管组成,位于 230 平方毫米的裸片上。将其与夏威夷 438 平方毫米芯片上的 62 亿个晶体管进行比较。正如您将在我们的基准测试页面中看到的那样,RX 480 通常落在 R9 290 和 390 之间……晶体管更少,功耗预算约为 55%。其中大部分自然归功于 GlobalFoundries 的 14nm FinFET 工艺,AMD 将其归功于提供了超过 28nm 节点平面晶体管的基本性能和功率优势。在任何给定的功率水平下,FinFET 都支持更高的时钟。在选定的频率下,14nm 器件使用的功率更少。对于 Polaris,AMD 正在从这两个箱子中抓起,以提高时钟频率并减少消耗。这就是它能够在 150W 的上限下胜过夏威夷等资源丰富的 GPU 的原因(尽管我们的测量结果显示 RX 480 在其 TDP 上有点软糖)。

    尽管有了新的代号,Polaris 10 还是基于 AMD 的 Graphics Core Next 架构的第四代实现。考虑到这一点,大多数已经熟悉 GCN 的爱好者都会认出 Polaris 设计的构建块,从而使我们的设计步骤相当简单。

    规格

    AMD Radeon RX 480

    AMD Radeon R9 390

    AMD Radeon R9 290

    前面的单个图形命令处理器仍负责将图形队列分派到着色器引擎。负责处理计算队列的异步计算引擎也是如此。直到现在,AMD 才表示其命令处理逻辑由 4 个 ACE 而不是 8 个组成,其中有两个硬件调度器单元用于优先队列、时间/空间资源管理和卸载 CPU 内核模式驱动程序调度任务。这些本身不是单独的或新的块,而是现有管道可以运行的可选模式。AMD 图形高级技术经理 Dave Nalasco 帮助阐明了它们的目的:

    “HWS(硬件工作组/Wavefront 调度程序)本质上是配置为没有调度控制器的 ACE 管道。它们的工作是通过处理可用硬件队列插槽上的用户/驱动程序队列的调度来卸载 CPU。它们是微码可编程处理器可以实现各种调度策略。我们使用它们来实现 Polaris 中的快速响应队列和 CU 预留功能,并且我们能够通过驱动程序更新将这些更改移植到第三代 GCN 产品。

    快速响应队列允许开发人员在不完全抢占其他进程的情况下确定异步运行的某些任务的优先级。如果您错过了 Dave 关于此功能的博客文章,您可以在此处查看。不过,简而言之,灵活性是 AMD 想要推动的重点。它的架构允许多种方法来提高利用率和最小化延迟,这两种方法在 VR 等应用程序中都非常重要。

    我们熟知的计算单元由 64 个符合 IEEE 754-2008 的着色器组成,分为四个矢量单元、一个标量单元和 16 个纹理提取加载/存储单元。每个 CU 还托管 4 个纹理单元、16KB 的 L1 缓存、64KB 的本地数据共享以及用于向量和标量单元的寄存器空间。AMD 表示,它进行了许多调整以提高 CU 的效率,包括添加原生 FP16(和 Int16)支持、调整缓存访问和更好的指令预取。据称,与基于第二代 GCN 架构的 Radeon R9 290 的夏威夷 GPU 相比,这些变化使每个 CU 的性能提高了 15%。

    九个 CU 被组织成一个着色器引擎,Polaris 10 拥有四个这样的 SE,这与我们所知道的架构的最大值一致。数学运算(64 个着色器 * 9 个 CU * 4 个 SE)加起来有 2304 个流处理器和 144 个纹理单元。

    每个着色器引擎都与一个几何引擎相关联,AMD 表示它通过添加一个图元丢弃加速器来改进它,以便在扫描转换之前将任何不会光栅化到像素的图元扔掉,从而提高吞吐量。这是图形管线预光栅化阶段的自动功能,对 Polaris 来说是全新的。还有一个用于实例化几何的索引缓存,尽管我们不确定它有多大,或者在使用实例化时它的影响有多大。

    与夏威夷类似,Polaris 10 每个时钟周期最多支持四个原语。但是,尽管基于夏威夷/格林纳达的最快 GPU 运行速度高达 1050MHz(在 R9 390X 的情况下),但 AMD 将 Radeon RX 480 推向了 1120MHz 的基本时钟频率和 1266MHz 的“提升”等级,弥补了一些它使用更高的频率会丢失片上资源。Radeon R9 290X 提供了 5.6 TFLOPS 的单精度浮点性能,而 RX 480 使用该“增强”规范可达到 5.8 TFLOPS。

    1266MHz 数字到底有多现实?夏威夷在保持 AMD 的时钟频率规格时遇到了一个真正的大问题,因为它变热了,我们希望确保同样的行为不会影响 Polaris。使用 Metro:Last Light Redux 的内置基准测试循环 10 次,我们使用 GPU-Z 记录频率并得到下图:

    此折线图上的最低点和最高点之间正好有 148MHz。下限为 1118MHz,上限为 1265MHz。我们会说 AMD 几乎准确地确定了它的基础和提升评级,即使两者之间发生的事情需要不断调整。至少平均 1208MHz 比底部更接近顶部。

    Hawaii 和 Fiji SE 各有四个渲染后端,每个时钟能够处理 16 个像素(或 GPU 上的 64 个像素)。Polaris 10 将这个数字减半。每个 SE 有两个渲染后端,每个都有四个 ROP,每个时钟总共 32 个像素。与基于夏威夷的 Radeon R9 290 相比,这是一个显着的减少,AMD 需要用 RX 480 击败它。更复杂的是,Polaris 10 采用了 256 位内存总线——比夏威夷的 512 位总路径窄得多。4GB 版本的 Radeon RX 480 将包括 7 Gb/s GDDR5,支持 224 GB/s 带宽,而我们今天测试的 8GB 型号使用 8 Gb/s 内存,将吞吐量提高到 256 GB/s。尽管如此,这仍比 R9 290 的 320 GB/s 低很多。

    改进的 delta 颜色压缩可以弥补一些不足,从而减少通过总线传输的信息量。AMD 现在支持 2/4/8:1 无损比率,类似于 Nvidia 的 Pascal 架构。Polaris 10 还受益于斐济首次出现的更大的 2MB L2 缓存。这可以帮助回拨到 GDDR5 的行程,进一步减少 GPU 对宽总线和高数据速率的依赖。

    尽管如此,随着分辨率和抗锯齿利用率的提高,GPU 后端的倾斜必然会对性能产生影响。随着工作量的增加,我们对 Polaris 与夏威夷的比较感到好奇,我们以适中的 1920×1080 和非常高的细节设置启动了侠盗猎车手 V,然后开始扩大抗锯齿。

    果然,您可以看到 Radeon RX 480 的平均帧速率比 R9 390 更快,因为 MSAA 从关闭切换到 2x 到 4x。在禁用 AA 的情况下,480 的 FPS 为 97.3,而 390 的 FPS 为 90.4。但到最后,AMD 的 Radeon RX 480 下降到每秒 57.5 帧,而 390 平均为 62.9。

    0 0 votes
    Rating post
    Subscribe
    Notify of
    0 comments
    Inline Feedbacks
    View all comments
    wpDiscuz
    0
    0
    Would love your thoughts, please comment.x
    ()
    x
    Exit mobile version