Skip to content

AMD Ryzen Threadripper 1950X 游戏模式,基准测试

    1645560003

    测试 Ryzen 的 Infinity Fabric 和内存子系统

    Infinity Fabric 延迟和带宽

    256 位 Infinity Fabric 横杆将 Zeppelin 芯片内部的资源联系在一起。不过,在第二个 Zeppelin 模具上添加 Threadripper 会引入另一层织物。缓存访问对每个 CCX 来说都是本地的,但是大量的内存、I/O 和线程到线程的流量仍然流经第二层。

    爱好者很快就发现 AMD 的 Infinity Fabric 与内存控制器绑定到相同的频域,因此内存超频可减少延迟并通过交叉开关增加带宽。因此,延迟敏感型应用程序(如游戏)的性能会有所提高。

    SiSoftware Sandra 的处理器多核效率测试帮助我们说明 Infinity Fabric 的性能。我们使用具有“最佳配对匹配”设置(最低延迟)的多线程指标。该实用程序测量线程之间的 ping 时间,以量化每种可能配置中的结构延迟。

    内核内延迟测量表示驻留在同一物理内核上的两个逻辑线程之间的通信,正如我们所见,禁用 SMT 会完全消除该测量。对于其余的设置,调整可将延迟减少几纳秒。但这归因于更高的时钟频率。正如我们过去所见,增加的内存频率对内核延迟几乎没有影响。

    内部 CCX 测量量化了同一 CCX 上不驻留在同一内核上的线程之间的延迟。增加时钟速率会产生更大的约 6ns 延迟减少。

    Cross-CCX 量化了位于两个独立 CCX 上的线程之间的延迟,由于超频,我们看到了类似的减少。值得注意的是,Ryzen 7 1800X 的 Cross-CCX 延迟比库存的 Threadripper 和大多数超频配置低得多。这可能是由于某种形式的配置,可能在调度算法中,用于 Threadripper 的额外结构层。

    正如我们所看到的,游戏模式下的超频 Threadripper CPU 没有与其他芯片的活动结构链接,具有最低的 Cross-CCX 延迟。

    Die-To-Die 测量两个单独的 Zeppelin 模具之间的通信。游戏模式在操作系统级别有效地禁用了第二个 Zeppelin die,完全消除了 die-to-die 的延迟。第二个芯片的非核心仍然处于活动状态,这是确保其 I/O 和内存控制器仍然可访问的必要条件。

    Creator 模式遭受最严重的 die-to-die 延迟,但调整可以大大减少它。两种 SMT 选项(打开和关闭)也因我们的超频工作而大幅减少。

    该实用程序还测量结构带宽,这对性能至关重要,因为从远程内存中获取的数据也会流经结构。因此,AMD 过度配置结构和内存子系统以优化分布式内存架构。

    Creator 模式和本地/SMT 配置均提供最佳结构带宽,享受超频带来的巨大提升。Ryzen 7 1800X 与 Threadripper 的游戏模式一起位于图表的中间,考虑到它们都是有效的 8C/16T 处理器,这是合乎逻辑的。禁用 SMT 但让两个裸片都处于活动状态(本地/SMT 关闭)会产生一个独特的配置文件,该配置文件可通过较大的访问提供更高的性能,并为较小的访问提供较低的性能。

    缓存和内存延迟

    我们在库存设置下使用 DDR4-2666 内存进行了测试,并针对我们的超频配置增加到 DDR4-3200。

    Translation Look Aside Buffer 是一个缓存,它通过存储最近访问的内存地址来减少访问时间。与所有缓存一样,TLB 的容量有限,因此到达 TLB 的地址请求是“命中”,而到达缓存之外的请求是“未命中”。当然,命中率更高,可靠的预取器性能会产生更高的命中率。

    顺序访问模式几乎完全预取到 TLB 中,因此顺序测试是预取器性能的一个很好的衡量标准。页内随机测试测量同一内存页内的随机访问。它还测量 TLB 性能并代表最佳情况下的随机性能(这是供应商用于官方规格表的测量值)。完整的随机测试混合了 TLB 命中和未命中,并且很可能未命中,因此它量化了最坏情况的延迟。

    无论内存访问模式如何,最小的数据块都适合 L1 缓存。随着数据大小的增加,它会填充更大的缓存。

    L1L2L3主存储器

    范围
    2KB – 32KB
    32KB – 512KB
    512KB – 8MB
    8MB – 1GB

    Threadripper 1950X 在每种访问模式下都比 Ryzen 7 1800X 具有更好的 L2 和 L3 延迟。此外,我们发现 Threadripper 的 L1、L2 和 L3 缓存通过超频显着降低了延迟。

    随着工作负载流出主内存,这种情况会发生变化。Threadripper 的 Creator 模式(默认设置)在每种访问模式下都具有最高的延迟。这是内存访问登陆远程内存的直接结果。我们的页内测量反映了 AMD 的 86.9ns 规范,但最坏情况下的完全随机访问超过 120ns。对处理器和内存进行超频可以降低延迟,但 Creator 模式仍然不会超过我们与之比较的任何配置。 

    使用 Local 设置切换到 NUMA 模式可以显着改善其他配置的主内存访问。我们测量了大约 60ns 的页内近内存访问,再次符合 AMD 的规范,而最坏情况下的延迟为 100ns。

    缓存带宽

    每个 CCX 都有自己的缓存,因此 Threadripper CPU 具有四个不同的 L1、L2 和 L3 内存集群。我们的带宽基准测试说明了这些层的总体性能。 

    在单线程测试中,锐龙 7 1800X 的吞吐量低于 Threadripper 处理器。其他配置聚集在熟悉的库存和超频组中。

    多线程测试更有趣;我们看到 Ryzen 7 1800X 和 Threadripper 的两种游戏模式落在了图表的底部。因为游戏模式禁用一个芯片上的核心,它有效地使相应的缓存失效。

    0 0 votes
    Rating post
    Subscribe
    Notify of
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x
    ()
    x