更新：Nvidia Titan X Pascal 12GB 评测

认识 GP102

编者注：我们更新了文章，在第 7 页和第 8 页包括了功率、热量和噪声测量，我们对结论进行了编辑以反映这些测量（见第 10 页）。

你有交易英镑兑日元的诀窍。你有一个杀手锏辣酱配方，它在全球范围内分发。你刚刚成为你岳父公司的合伙人。不管怎样，你属于真正不担心钱的精英群体。你有海滨别墅、宾利和宝格丽。现在，Nvidia 为您的游戏 PC 提供了显卡：Titan X。它建立在具有 3584 个 CUDA 内核的新 GP102 图形处理器上，由 384 位总线上的 12GB GDDR5X 内存提供支持，并且毫无歉意地以 1200 美元的价格提供。

在发布单一基准之前，英伟达因在数月内推出第三款基于 Pascal 的 GPU 而受到赞誉，并因其提高旗舰产品的价格而受到批评——当英特尔以前所未有的 1700 美元以上推出酷睿 i7-6950X 时，这种做法让英特尔大吃一惊. 不过，事情是这样的：购买最好的最好的人不会受到缓慢的奢侈税的影响。而那些真正用 PC 赚钱的人则乐于为能够增加收入的硬件支付溢价。

我们认为，所有这些都让我们在 Titan X 上的时间变得不那么尴尬了。没有事后价值考虑。您支付的费用比 GeForce GTX 1080 的成本高出 70%，即可获得 40% 的 CUDA 内核和 50% 的内存带宽提升。我们甚至在收到卡之前就知道性能不会随着成本而扩展。尽管如此，我们还是迫不及待地想要运行基准测试。Titan X 提高 4K 帧率是否足以满足扶手椅四分卫快速调用 1080 不足以进行最高质量游戏的需求？只有一种方法可以找出答案。

GP102：和 GP104 一样，除了更大

凭借其 GeForce GTX 1080，Nvidia 向我们介绍了 GP104（高端 Pascal）处理器。从精神上讲，该 GPU 继承了 GM204（高端 Maxwell），最后一次出现在 GeForce GTX 980 的核心。但由于 Pascal 架构的时间与 16nm FinFET 制造和更快的 GDDR5X 内存相吻合，因此最终的 GTX 1080 可以毫不费力地放置平均帧速率比 GTX 980 Ti 和 Titan X 高 30% 以上，均由 GM200（超高端 Maxwell）提供支持。这很容易让人忘记下一步，特别是因为我们知道 153 亿晶体管 GP100（超高端 Pascal）是面向计算的，可能不适合桌面。

现在，我们第一次拥有了一个由 Nvidia 最高端处理器和 GP104 包围的“tweener GPU”。这个叫做 GP102，在架构上它类似于 GP104，只是更大。四个图形处理集群变为六个。反过来，20 个流式多处理器变为 30 个。每个 SM 有 128 个 FP32 CUDA 内核，GP102 使用多达 3840 个可编程构建块。不过，GP102 非常复杂（它由 120 亿个晶体管组成）。作为提高产量的一种手段，Nvidia 为其 Titan X 禁用了处理器的两个 SM，使主板的 CUDA 核心计数降至 3584。而且由于每个 SM 还托管 8 个纹理单元，因此关闭其中两个会启用 224 个纹理单元。

Titan X 的规格引用了 1417 MHz 的基本时钟，典型的 GPU Boost 频率在 1531 MHz 范围内。这使该卡的 FP32 速率为 10.1+ TFLOPS，比 GeForce GTX 1080 高出大约 23%。

毫无疑问，GP104 将受益于更宽的内存接口，尤其是 4K。但是 GP102 更大的着色/纹理潜力肯定需要重新平衡。因此，处理器的后端增长到包括 12 个 32 位内存控制器，每个都绑定到 8 个 ROP 和 256KB 的 L2（与 GP104 一样），总共产生 96 个 ROP 和 3MB 的共享缓存。这会产生一个 384 位聚合路径，Nvidia 使用 GTX 1080 上相同的 10 Gb/s GDDR5X 填充 12GB。

该卡的理论内存带宽为 480 GB/s（与 1080 的 320 GB/s 相比，增加了 50%），但考虑到 Pascal 架构的增量颜色压缩改进后，有效吞吐量应该更高。

一年多前，当 AMD 向我们展示了 HBM 的诸多优势时，为什么还要继续使用源自 GDDR5 的技术？我们只能想象，在 GP102 的设计阶段，Nvidia 不确定 HBM2 的供应会如何动摇，而是使用基于 GDDR5X 的子系统来保证它的安全。GP100 仍然是 HBM2 阵容中唯一的 GPU。

GPUTitan X (GP102)GeForce GTX 1080 (GP104)Titan X (GM100) SMs CUDA Cores Base Clock GPU Boost Clock GFLOPs (Base Clock) Texture Units Texel Fill Rate Memory Data Rate Memory Bandwidth ROPs L2 Cache TDP Transistors Die Size Process Node

28
20
24

3584
2560
3072

1417兆赫
1607兆赫
1000兆赫

1531兆赫
1733兆赫
1075兆赫

10,157
8228
6144

224
160
192

342.9 GT/秒
277.3GT/s
192GT/秒

10 Gb/秒
10 Gb/秒
7 Gb/秒

480 GB/秒
320 GB/秒
336.5 GB/秒

96
64
96

3MB
2MB
3MB

250W
180W
250W

120亿
72亿
80亿

471 平方毫米
314 平方毫米
601 平方毫米

16纳米
16纳米
28nm

有趣的是，Nvidia 显然是在最后一刻选择将 Titan X 与其 GeForce 系列分开。geforce.com 上的 Titan X 登录页面称其为终极显卡。不是终极游戏显卡。相反，“终极。时期。” 当然，鉴于我们正在处理更大尺寸的 GP104，Titan X 应该擅长游戏。

但该公司决定在斯坦福主办的人工智能会议上推出 Titan X，这表明它这次专注于深度学习。为此，虽然 GP104 上的 FP16 和 FP64 速率非常慢（以及扩展，在 GP102 上），但两个处理器都支持 4:1 的 INT8，在 Titan X 的基本频率下产生 40.6 TOPS。

更新：Nvidia Titan X Pascal 12GB 评测

认识 GP102

GP102：和 GP104 一样，除了更大

Related Posts

System Builder Marathon 2015 年第四季度：895 美元 LAN Box PC

AMD RX Vega 64：汤姆的硬件液冷版

发烧友 P55：8 块 LGA 1156 板，价格在 150 美元到 200 美元之间

第二代 SandForce：七款 120 GB SSD