コンテンツへスキップ

AMD Ryzen Threadripper 1950Xゲームモード、ベンチマーク

    1645560003

    RyzenのInfinityファブリックおよびメモリサブシステムのテスト

    インフィニティファブリックの遅延と帯域幅

    256ビットのInfinityFabricクロスバーは、Zeppelinダイ内のリソースを結合します。ただし、2番目のツェッペリンダイをタックしてスレッドリッパーを作成すると、ファブリックの別のレイヤーが導入されます。キャッシュアクセスは各CCXに対してローカルのままですが、大量のメモリ、I / O、およびスレッド間トラフィックが引き続きその2番目のレイヤーを通過します。

    AMDのInfinityFabricがメモリコントローラーと同じ周波数領域に関連付けられていることを愛好家が理解するのにそれほど時間はかかりませんでした。そのため、メモリオーバークロックにより、レイテンシーが減少し、クロスバーを介した帯域幅が増加します。その結果、遅延の影響を受けやすいアプリケーション(ゲームなど)のパフォーマンスが向上します。

    SiSoftware Sandraのプロセッサマルチコア効率テストは、Infinityファブリックのパフォーマンスを説明するのに役立ちます。「ベストペアマッチ」設定(最小のレイテンシ)でマルチスレッドメトリックを使用します。このユーティリティは、スレッド間のping時間を測定して、考えられるすべての構成でファブリックの遅延を定量化します。

    コア内レイテンシの測定値は、同じ物理コアに存在する2つの論理スレッド間の通信を表します。ご覧のとおり、SMTを無効にすると、その測定値が完全になくなります。残りのセットアップでは、チューニングによりレイテンシーが数ナノ秒短縮されます。しかし、これはより高いクロックレートに起因します。過去に見たように、メモリ周波数の増加はコア内レイテンシにほとんど影響を与えません。

    CCX内測定では、同じコアに常駐していない同じCCX上のスレッド間の遅延を定量化します。クロックレートを上げると、レイテンシが最大6ns短縮されます。

    Cross-CCXは、2つの別々のCCXにあるスレッド間のレイテンシーを定量化し、オーバークロックのおかげで同様の削減が見られます。特に、Ryzen 7 1800Xは、標準のThreadripperおよびほとんどのオーバークロック構成よりもはるかに低いCross-CCXレイテンシーを備えています。これは、おそらくスケジューリングアルゴリズムで、Threadripperのファブリックの追加レイヤーに対する何らかのプロビジョニングが原因である可能性があります。

    ご覧のとおり、他のダイへのアクティブなファブリックリンクがないゲームモードのオーバークロックされたThreadripper CPUは、Cross-CCXレイテンシが最も低くなっています。

    Die-To-Dieは、2つの別々のZeppelinダイ間の通信を測定します。ゲームモードは、オペレーティングシステムレベルで2番目のZeppelinダイを効果的に無効にし、ダイ間のレイテンシを完全に排除します。ただし、2番目のダイのアンコアはまだアクティブです。これは、I / Oとメモリコントローラーに引き続きアクセスできるようにするために必要です。

    クリエーターモードはダイツーダイのレイテンシーが最悪ですが、チューニングにより大幅に削減されます。2つのSMTオプション(オンとオフ)は、オーバークロックの取り組みからも大幅に削減されます。

    ユーティリティはファブリックの帯域幅も測定します。これは、リモートメモリからのデータフェッチもファブリック全体に流れるため、パフォーマンスにとって重要です。そのため、AMDは分散メモリアーキテクチャを最適化するためにファブリックとメモリサブシステムをオーバープロビジョニングします。

    クリエーターモードとローカル/ SMT構成の両方が最高のファブリック帯域幅を提供し、オーバークロックによる大幅なブーストを享受します。Ryzen 7 1800Xは、Threadripperのゲームモードと並んでチャートの真ん中にあります。これは、どちらも事実上8C / 16Tプロセッサであることを考えると論理的です。SMTを無効にし、両方のダイをアクティブのままにする(ローカル/ SMTをオフにする)と、アクセスが大きい場合はパフォーマンスが高くなり、アクセスが小さい場合はパフォーマンスが低くなるという独自のプロファイルが得られます。

    キャッシュとメモリのレイテンシ

    在庫設定でDDR4-2666メモリを使用してテストし、オーバークロック構成ではDDR4-3200に増やしました。

    トランスレーションルックアサイドバッファは、最近アクセスしたメモリアドレスを保存することにより、アクセス時間を短縮するキャッシュです。すべてのキャッシュと同様に、TLBの容量には制限があるため、TLBに到達するリクエストは「ヒット」であり、キャッシュの外部に到達するリクエストは「ミス」です。もちろん、ヒットはより望ましいものであり、安定したプリフェッチャーのパフォーマンスはより高いヒット率をもたらします。

    シーケンシャルアクセスパターンはほぼ完全にTLBにプリフェッチされるため、シーケンシャルテストはプリフェッチャーのパフォーマンスの優れた指標になります。ページはめ込みランダムテストは、同じメモリページ内のランダムアクセスを測定します。また、TLBパフォーマンスを測定し、ベストケースのランダムパフォーマンスを表します(これは、ベンダーが公式のスペックシートに使用する測定です)。完全なランダムテストは、TLBのヒットとミスの組み合わせを特徴とし、ミスの可能性が高いため、最悪の場合の遅延を定量化します。

    メモリアクセスパターンに関係なく、最小のデータチャンクはL1キャッシュに収まります。また、データのサイズが大きくなると、より大きなキャッシュにデータが入力されます。

    L1L2L3メインメモリ

    範囲
    2KB-32KB
    32KB-512KB
    512KB-8MB
    8MB-1GB

    Threadripper 1950Xは、あらゆるタイプのアクセスパターンでRyzen 71800Xよりも優れたL2およびL3レイテンシーを備えています。また、ThreadripperのL1、L2、およびL3キャッシュのオーバークロックによる顕著なレイテンシーの削減を発見しました。

    これは、ワークロードがメインメモリに流出するにつれて変化します。Threadripperのクリエーターモード(デフォルト設定)は、すべてのアクセスパターンで最も待ち時間が長くなります。これは、リモートメモリに到達したメモリアクセスの直接の結果です。ページはめ込み測定はAMDの86.9ns仕様を反映していますが、最悪の場合の完全ランダムアクセスは120nsを超えています。プロセッサとメモリをオーバークロックするとレイテンシが低下しますが、それでもCreatorモードは比較対象の構成を追い越しません。 

    ローカル設定でNUMAモードに切り替えると、他の構成のメインメモリアクセスが大幅に向上します。ページ内ニアメモリアクセスの測定値は約60nsで、これもAMDの仕様に沿っていますが、ワーストケースのレイテンシは100nsです。

    キャッシュ帯域幅

    各CCXには独自のキャッシュがあるため、Threadripper CPUは、L1、L2、およびL3メモリの4つの異なるクラスターを備えています。帯域幅ベンチマークは、これらの層の総合的なパフォーマンスを示しています。 

    シングルスレッドテスト中、Ryzen 71800XはThreadripperプロセッサよりも低いスループットを示しています。他の構成は、おなじみのストックとオーバークロックされたグループにまとめられています。

    マルチスレッドテストはもっと興味深いものです。Ryzen 7 1800Xが表示され、2つのThreadripperゲームモードがチャートの一番下に表示されます。ゲームモードは1つのダイのコアを無効にするため、対応するキャッシュを効果的に使用できなくなります。

    0 0 votes
    Rating post
    Subscribe
    Notify of
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x
    ()
    x