Skip to content

Nvidia GeForce GTX 1660 Ti 6GB 评测:没有 RTX 的图灵

    1649727002

    我们的判决

    尽管 GeForce GTX 1660 Ti 的成本高于它所取代的 1060 6GB,但 Nvidia 最新的基于 Turing 的主板提供了与 GeForce GTX 1070 相似的性能。高性能、合理的价格和适度的功耗融合在一个坚实的上游主流显卡中.

    为了

    1920 x 1080 的出色性能
    2560 x 1440 可接受的帧速率
    保留图灵的视频编解码加速特性
    120W 主板功率媲美 AMD 竞争对手

    反对

    没有 RT/Tensor 核心意味着您将无法尝试光线追踪或 DLSS

    没有 RTX 的图灵

    2019 年 11 月 21 日更新:自 2019 年 2 月推出 GTX 1660 Ti 以来,GPU 格局发生了巨大变化,大量“超级”卡基于相同的图灵架构,但同时推动了更高的性能和更低的价格。公司最初的图灵阵容。与 GTX 1660 Ti 的潜在买家最相关的是 GeForce GTX 1660 Super,它提供与 1660 Ti 相似的性能,起价为 229 美元。在撰写本文时,这比最低价格的 GTX 1660 Ti 低约 30 美元。

    Nvidia GeForce GTX 1660 Ti 建立在 TU116 之上——一种全新的图形处理器,融合了 Turing 改进的着色器、统一的缓存架构、对自适应着色的支持以及完整的视频编码/解码加速功能。GPU 与 GDDR6 内存配对,就像更高端的 GeForce RTX 20 系列型号一样。但它还不够快,不足以证明使用 RT 内核加速光线追踪或使用 Tensor 内核进行游戏推理是合理的。因此,TU116 是一款更精简的芯片,其规格列表强调当今的顶级产品。

    Nvidia 表示 GeForce GTX 1660 Ti 起价为 280 美元,完全取代 GeForce GTX 1060 6GB。尽管该基本价格比基于 Pascal 的 1060 6GB 于 2016 年开始其旅程的价格高出 30 美元(或 12%),但该公司声称 GeForce GTX 1660 Ti 的速度高达 1.5 倍,并且在相同的 120W 板功率额定值下,不少于。

    迄今为止,我们从图灵一代身上看到的每美元性能的提高并不是很多。Nvidia 能否通过专为 1920 x 1080 性能而打造的 GPU 扭转这一局面?

    认识 TU116:Turing Sans RT 和张量核心

    我们已经看到 Nvidia 推出了四个独立的 GPU,因为它护送我们走下图灵层次。对于每一个,公司都会剥离资源以瞄准更低的价格点。但我们知道它一直在努力保持平衡,最大限度地减少不必要地剥夺低端处理器峰值性能的瓶颈。

    GeForce RTX 2060 配备了 2080 Ti 44% 的 CUDA 内核和纹理单元、54% 的 ROP 和内存带宽以及 50% 的 L2 缓存。在 2060 年推出之前,我们怀疑 RT 和 Tensor 内核等奢侈品在这些级别上不再有意义。但是,为《战地 5》(当时可用的一款支持光线追踪的游戏)的一系列补丁带来了巨大的性能提升,证明了图灵的标志性功能仍然可以在可玩的帧速率下使用。

    事实证明我们落后了一层。Nvidia 认为 TU116 是着色马力下降到足以阻止图灵的未来功能发挥作用的边界。剥离 RT 和 Tensor 内核后,我们剩下一块 284mm² 的芯片,由 66 亿个晶体管组成,采用台积电的 12nm FinFET 工艺制造。但尽管晶体管更小,TU116 仍比之前的 GP106 处理器大 42%。

    部分增长归功于图灵更复杂的着色器。与更高端的 GeForce RTX 20 系列卡一样,GeForce GTX 1660 Ti 支持同时执行构成大多数着色器工作负载的 FP32 算术指令和 INT32 操作(用于寻址/获取数据、浮点最小值/最大值、比较等.)。当您听说 Turing 内核在给定时钟频率下实现比 Pascal 更好的性能时,这种能力在很大程度上解释了原因。

    Turing 的流式多处理器由比 Pascal 更少的 CUDA 内核组成,但该设计通过在每个 GPU 上分布更多的 SM 来部分补偿。较新的架构为每组 16 个 CUDA 内核(2x Pascal)分配一个调度程序,以及每 16 个 CUDA 内核(与 Pascal 相同)一个调度单元。这些 16 核分组中的四个组成了 SM,以及可配置为 64KB L1/32KB 共享内存(反之亦然)的 96KB 缓存,以及四个纹理单元。因为图灵在调度器上加倍,它只需要每隔一个时钟周期向 CUDA 内核发出一条指令,以保持它们满载。在这两者之间,可以自由地向任何其他单元发出不同的指令,包括 INT32 内核。

    特别是在 TU116 中,Nvidia 表示它用每个 SM 128 个专用 FP16 内核取代了 Turing 的 Tensor 内核,这使得 GeForce GTX 1660 Ti 能够以 FP32 的 2 倍速率处理半精度运算。不过,其他基于图灵的 GPU 也拥有双倍速率 FP16,因此尚不清楚 GeForce GTX 1660 Ti 在其家族中有何独特之处。根据下表,更明显的是,与 GeForce GTX 1060 及其基于 Pascal 的 GP106 芯片相比,1660 Ti 的半精度吞吐量有了巨大的提升。

    但是,当我们运行测试通用矩阵乘法的 Sandra 的科学分析模块时,我们会看到与 TU116 相比,TU106 的 Tensor 核心实现了多少 FP16 吞吐量。仅象征性地支持 FP16 的 GeForce GTX 1060 几乎没有在图表上注册。

    除了图灵架构的着色器和统一缓存之外,TU116 还支持一对称为内容自适应着色和运动自适应着色的算法,统称为可变速率着色。我们在 Nvidia 的 Turing 架构探索:GeForce RTX 2080 内部介绍了这项技术。该故事还介绍了 Turing 的加速视频编码和解码功能,这些功能也延续到了 GeForce GTX 1660 Ti。

    把它们放在一起……

    Nvidia 将 24 个 SM 打包到 TU116 中,将它们分成三个图形处理集群。每个 SM 有 64 个 FP32 内核,即整个 GPU 中有 1,536 个 CUDA 内核和 96 个纹理单元。主板合作伙伴无疑会瞄准一系列频率来填补 GTX 1660 Ti 和 RTX 2060 之间的差距。但是,官方的基本时钟频率为 1,500 MHz,GPU Boost 规格为 1,770 MHz。我们的 EVGA GeForce GTX 1660 Ti XC Black Gaming 样本通过 Metro: Last Light 的 3 次运行达到了大约 1,845 MHz,而我们看到的其他显卡很容易超过 2,000 MHz。因此,在纸面上,GeForce GTX 1660 Ti 可提供高达 5.4 TFLOPS 的 FP32 性能和 10.9 TFLOPS 的 FP16 吞吐量。

    六个 32 位内存控制器为 TU116 提供了一个聚合的 192 位总线,该总线由 12 Gb/s GDDR6 模块 (Micron MT61K256M32JE-12:A) 填充,最高可达 288 GB/s。这比 GeForce GTX 1060 获得的内存带宽多 50%,帮助 GeForce GTX 1660 Ti 在启用抗锯齿的情况下保持其 2560 x 1440 的性能优势。

    每个内存控制器与 8 个 ROP 和一个 256KB 的 L2 高速缓存片相关联。TU116 总共公开了 48 个 ROP 和 1.5MB 的 L2。GeForce GTX 1660 Ti 的 ROP 计数优于 RTX 2060,后者也使用 48 个渲染输出。但它的 L2 缓存片只有一半大。

    尽管芯片更大,晶体管数量增加了 50%,并且 GPU Boost 时钟频率更激进,但 GeForce GTX 1660 Ti 的额定功率与 GeForce GTX 1060 相同,为 120W。不幸的是,这两种显卡都不支持多 GPU。Nvidia 继续宣传 SLI 旨在推动更高的绝对性能,而不是为游戏玩家提供匹配单 GPU 配置的方法。

    EVGA GeForce GTX 1660 Ti XC 黑色 GamingGeForce RTX 2060 FEGeForce GTX 1060 FEGeForce GTX 1070 FE 架构 (GPU) CUDA 核心峰值 FP32 计算张量核心 RT 核心 纹理单元 基本时钟频率 GPU 加速率 内存容量 内存总线 内存带宽 ROP 二级缓存 TDP 晶体管数量芯片尺寸 SLI 支持

    图灵 (TU116)
    图灵(TU106)
    帕斯卡 (GP106)
    帕斯卡 (GP104)

    1536
    1920
    1280
    1920

    5.4 TFLOPS
    6.45 TLFOPS
    4.4 TFLOPS
    6.5 TFLOPS

    不适用
    240
    不适用
    不适用

    不适用
    30
    不适用
    不适用

    96
    120
    80
    120

    1500兆赫
    1365兆赫
    1506兆赫
    1506兆赫

    1770兆赫
    1680兆赫
    1708兆赫
    1683兆赫

    6GB GDDR6
    6GB GDDR6
    6GB GDDR5
    8GB GDDR5

    192 位
    192 位
    192 位
    256 位

    288 GB/秒
    336 GB/秒
    192 GB/秒
    256 GB/秒

    48
    48
    48
    64

    1.5MB
    3MB
    1.5MB
    2MB

    120W
    160W
    120W
    150W

    66亿
    108亿
    44亿
    72亿

    284 平方毫米
    445 平方毫米
    200 平方毫米
    314 平方毫米




    是 (MIO)

    EVGA 的 GeForce GTX 1660 Ti XC 黑色游戏

    GeForce GTX 1060 Founders Edition 也是一张 120W 的显卡,它带有一个六针辅助连接器。另一方面,EVGA 的 GeForce GTX 1660 Ti XC Black Gaming 采用八针输入,提供了相当多的额外空间。正如我们将在我们的每轨电源测试中看到的那样,在我们的压力测试期间,该卡在其 PCIe 插槽上消耗了 3A 的电流——其余的来自其八针连接器。

    EVGA 为 TU116 使用四个电源相位。GPU 的相位由 PCB 背面的较旧的 ON Semiconductor NCP81276 控制,该电路连接到四个 ON Semiconductor NCP302155。

    这四个组件集成了高侧和低侧 MOSFET、驱动器和自举二极管。它们与 GeForce RTX 2070 Founders Edition 上使用的部件相同,平均电流高达 55A。

    Ubiq Semiconductor 熟悉的双相 uP1666Q 通过两个 QM3816N6 双 N 沟道 MOSFET 控制存储器的电压调节电路。

    可能比 GeForce GTX 1660 Ti XC Black Gaming 相当简单的电源更有趣的是,EVGA 的 PCB 有额外的两个 GPU 阶段的空焊盘。还有一对用于另外两个 GDDR6 内存模块的位置。Nvidia 对 GeForce GTX 1060 做了类似的事情,在其 Founders Edition 卡上留下了几个从未填充过的空白点。这是一种节省时间和成本的措施,允许公司将一个 PCB 用于多种产品。

    一块金属板位于 PCB 顶部,将散热垫夹在集成驱动器/MOSFET、GDDR6 内存模块和电流感应电阻器之间。板顶部的更多导热垫使热量进入主散热器组件,该组件安装在 GPU 周围的四个点上,并通过 PCB 的背面拧入。

    散热解决方案本身由与 TU116 直接接触的相当薄的铜焊盘组成。三个扁平管焊接到其顶部,一组铝翅片依次焊接到热管上。护罩夸大了相对较厚的翅片堆叠,其中装有一个 85 毫米风扇并增加了更多深度。总而言之,EVGA 的 GeForce GTX 1660 Ti XC Black Gaming 占用了主板上的三个扩展槽。

    EVGA 最终以厚度换取长度。GeForce GTX 1660 Ti XC Black Gaming 可能有 2 英寸深,但只有大约 7.5 英寸(~190 毫米)长和 4 ⅜ 英寸(111 毫米)高。此外,与我们一直在审查的坚固的创始人版卡相比,总重量为 1 磅 7 盎司。(656g) 感觉非常轻盈。

    在前面,GeForce GTX 1660 Ti XC Black Gaming 暴露了一个双链路 DVI 连接器、一个 HDMI 端口和一个 DisplayPort 接口。到目前为止,在所有其他 Turing 级卡上看到的基于 USB Type-C 的 VirtualLink 连接器都消失了,这表明我们正在下降到一个不利于流畅 VR 游戏的性能水平(即使在最好的 VR 耳机上也是如此)。选择在其设计中添加 VirtualLink 的董事会合作伙伴可以自由选择;EVGA 根本没有在这个模型上实现它。

    我们如何测试 EVGA 的 GeForce GTX 1660 Ti XC Black Gaming

    显然,GeForce GTX 1660 Ti 比我们评测过的其他基于图灵的主板更主流。因此,我们基于 MSI Z170 Gaming M7 主板和 4.2 GHz 的 Intel Core i7-7700K CPU 的图形工作站非常合适。该处理器由 G.Skill 的 F4-3000C15Q-16GRR 内存套件补充。Crucial 英睿达的 MX200 SSD 就在这里,还有一个 1.6TB 的 Intel DC P3700 加载了游戏。

    就竞争而言,1660 Ti 主要与 GeForce GTX 1070 相比,尽管我们也包括 1070 Ti。当然,与 GeForce GTX 1060 的比较是不可避免的。所有这些卡都包含在我们的阵容中,还有 GeForce RTX 2060 和 GeForce RTX 2070。在 AMD 方面,我们最感兴趣的是 Radeon RX 590,尽管 Radeon RX Vega 64 和 Radeon RX Vega 56 更有趣补充,太。

    我们的基准选择包括《奇点灰烬:升级》、《战地风云 5》、《命运 2》、《孤岛惊魂 5》、《极限竞速:地平线 4》、《侠盗猎车手 V》、《地铁:最后之光 Redux》、《古墓丽影》、《汤姆克兰西全境封锁》、《汤姆克兰西的幽灵》侦察荒地、巫师 3 和德军总部 II:新巨像。

    我们使用的测试方法来自 PresentMon: Performance In DirectX, OpenGL, And Vulkan。简而言之,这些游戏使用 OCAT 和我们自己的 PresentMon 内部 GUI 的组合进行评估,并通过 GPU-Z 进行日志记录。

    我们使用驱动程序版本 418.91 来测试 GeForce GTX 1660 Ti 并为其他一切构建 417.54。AMD 的显卡使用 Crimson Adrenalin 2019 Edition 18.12.3。

    0 0 votes
    Rating post
    Subscribe
    Notify of
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x
    ()
    x