コンテンツへスキップ

AMD Radeon RX4808GBレビュー

    1650103202

    Polaris10に会う

    6か月前、AMDは、HDMI2.0bとDisplayPort1.3 HBR3、FreeSync over HDMI、HDR対応パイプラインをサポートするように改良されたディスプレイコントローラーから始めて、次世代GPUが提供する機能のいじめを開始しました。その後の数週間で他の断片が出現し、主流のデスクトップ市場で市場シェアを取り戻すために意図的に構築された2つの異なるGPUを含み、薄型軽量のフォームファクタでコンソールクラスのパフォーマンスを提供するモバイルソリューションを提供する発売を示しました。

    後者の設計には、128ビットメモリバスと4Kビデオのエンコード/デコードアクセラレーションに対応する16個のAMDのコンピューティングユニットが含まれています。それはまだ来ています。現在使用しているRadeonRX480は、より大きなPolaris10デザインに基づいています。しかし、Nvidiaの153億トランジスタGP100プロセッサが大きいという意味では大きくありません。むしろ、GPUは、今日の最高級のバーチャルリアリティヘッドセットを駆動するのに十分なほど複雑であり、少なくともAMDのRadeonR9290とNvidiaのGeForceGTX970のリーグに含まれています。

    ミッドレンジのパフォーマンスは、特にGP104がハイエンドを再定義してから1か月後に、誰かの靴下を勝手に落とすことはありません。しかし、Radeon RX 480の価格を同様に高速なボードよりもはるかに低く設定し、消費電力を150Wに制限することで、AMDはVRをより多くのゲーマーが利用できるようにしたいと考えています(600ドルと800ドルのHMDを販売している企業だけが一緒にプレイする場合)。

    Radeon RX 480には2つのバージョンがあります。7Gb/sで動作する4GBのオンボードGDDR5を備えた200ドルのモデルと、8GB/sのGDDR5を備えた240ドルのバージョンです。当然、8GBのものが手元にあります。

    Polaris10の内部

    Polaris 10は、230mm²のダイ上に57億個のトランジスタで構成されています。これを、438mm²のダイに搭載されたハワイの62億個のトランジスタと比較してください。ベンチマークページ全体でわかるように、RX 480は通常、R9 290と390の間のどこかにあり、トランジスタが少なく、電力バジェットの約55%です。その多くは、当然、GlobalFoundriesの14nm FinFETプロセスに起因します。これは、AMDが28nmノードのプレーナトランジスタよりも基本的なパフォーマンスと電力の利点を提供したことで評価されています。任意の電力レベルで、FinFETはより高いクロックを可能にします。選択した周波数では、14nmデバイスはより少ない電力を使用します。Polarisの場合、AMDは両方のビンを利用して、クロックレートを上げ、消費量を削減しています。このようにして、150Wの上限でハワイのようなリソースが豊富なGPUよりも優れたパフォーマンスを発揮できます(ただし、私たちの測定では、RX 480がTDPに少しファッジしていることが示されています)。

    新しいコードネームにもかかわらず、Polaris10はAMDのGraphicsCoreNextアーキテクチャの第4世代の実装に基づいています。これを念頭に置いて、すでにGCNに精通しているほとんどの愛好家は、Polaris設計の構成要素を認識し、設計のステップスルーをかなり簡単にします。

    仕様

    AMD Radeon RX 480

    AMD Radeon R9 390

    AMD Radeon R9290

    単一のグラフィックスコマンドプロセッサが、シェーダーエンジンへのグラフィックスキューのディスパッチを引き続き担当します。非同期計算エンジンも、計算キューの処理を担当しています。現在AMDは、コマンド処理ロジックが8つではなく4つのACEで構成されており、優先キュー、時間的/空間的リソース管理、およびCPUカーネルモードドライバースケジューリングタスクのオフロードのために2つのハードウェアスケジューラユニットが配置されていると述べています。これらは、それ自体が個別のブロックや新しいブロックではなく、既存のパイプラインを実行できるオプションのモードです。AMDのグラフィックスのシニアテクノロジーマネージャーであるDave Nalascoは、その目的を明確にするのに役立ちます。

    「HWS(ハードウェアワークグループ/ウェーブフロントスケジューラ)は、基本的にディスパッチコントローラなしで構成されたACEパイプラインです。その仕事は、使用可能なハードウェアキュースロットでユーザー/ドライバキューのスケジューリングを処理することによってCPUをオフロードすることです。これらはマイクロコードでプログラム可能なプロセッサです。さまざまなスケジューリングポリシーを実装できます。これらを使用して、PolarisにクイックレスポンスキューとCU予約機能を実装し、ドライバーの更新により、これらの変更を第3世代のGCN製品に移植することができました。」

    クイック応答キューを使用すると、開発者は、他のプロセスを完全にプリエンプトすることなく、非同期で実行される特定のタスクに優先順位を付けることができます。この機能に関するDaveのブログ投稿を見逃した場合は、ここで確認できます。要するに、しかし、柔軟性はAMDが家に帰りたいポイントです。そのアーキテクチャにより、使用率を改善し、遅延を最小限に抑えるための複数のアプローチが可能になります。これらは両方とも、VRなどのアプリケーションで非常に重要です。

    私たちがよく知っているコンピューティングユニットは、4つのベクトルユニット、スカラーユニット、および16のテクスチャフェッチロード/ストアユニットに分割された64個のIEEE754-2008準拠のシェーダーで構成されています。各CUは、4つのテクスチャユニット、16KBのL1キャッシュ、64KBのローカルデータ共有、およびベクトルユニットとスカラーユニット用のレジスタスペースもホストします。AMDは、ネイティブFP16(およびInt16)サポートの追加、調整されたキャッシュアクセス、より優れた命令プリフェッチなど、CUの効率を改善するために多くの調整を行ったと述べています。全体として、この変更により、第2世代のGCNアーキテクチャに基づくRadeon R9290のHawaiiGPUよりもCUあたりのパフォーマンスが最大15%向上すると言われています。

    9つのCUがシェーダーエンジンに編成され、Polaris 10はそのようなSEを4つ備えており、アーキテクチャの最大値であることがわかっています。計算(64シェーダー*9つのCU* 4つのSE)は、最大2304のストリームプロセッサーと144のテクスチャユニットを追加します。

    各シェーダーエンジンはジオメトリエンジンに関連付けられており、AMDは、スキャン変換の前にピクセルにラスタライズされないプリミティブを投げるためのプリミティブ破棄アクセラレータを追加することで改善され、スループットが向上すると述べています。これは、グラフィックスパイプラインの事前ラスタライズ段階の自動機能であり、Polarisにとってまったく新しいものです。インスタンス化されたジオメトリのインデックスキャッシュもありますが、これがどれほど大きいか、インスタンス化が使用された場合の影響がどれほど重要かはわかりません。

    ハワイと同様に、Polaris10はクロックサイクルごとに最大4つのプリミティブを処理できます。しかし、最速のハワイ/グレナダベースのGPUは最大1050MHz(R9 390Xの場合)で動作しますが、AMDはRadeon RX 480を1120MHzの基本クロックレートと1266MHzの「ブースト」定格にプッシュし、その一部を補います。より高い周波数を使用すると、オンダイリソースが失われます。Radeon R9290Xは単精度浮動小数点パフォーマンスの5.6TFLOPSを提供しましたが、RX480はその「ブースト」仕様を使用して最大5.8TFLOPSに達します。

    1266MHzの数値はどれほど現実的ですか?ハワイは暑くなったときにAMDのクロックレート仕様を維持する上で非常に大きな問題を抱えていました。同じ動作がPolarisに影響を与えないようにしたかったのです。Metroの使用:Last Light Reduxの組み込みベンチマークが10回ループし、GPU-Zを使用して周波数を記録し、次のグラフを取得しました。

    この折れ線グラフの最低点と最高点の間には正確に148MHzがあります。床は1118MHz、天井は1265MHzです。AMDは、その間に起こったことが絶えず調整されているとしても、そのベースを釘付けにし、評価をほぼ正確に高めると言えます。少なくとも平均1208MHzは、下部より上部に近いです。

    ハワイとフィジーのSEには、それぞれ4つのレンダリングバックエンドがあり、クロックあたり16ピクセル(またはGPU全体で64ピクセル)が可能です。Polaris10はその数字を半分にカットします。SEごとに2つのレンダリングバックエンドがあり、それぞれに4つのROPがあり、クロックごとに合計32ピクセルです。これは、ハワイを拠点とするRadeon R9 290AMDがRX480で打ち負かす必要がある場合と比較して、大幅な削減です。さらに複雑なことに、Polaris 10は256ビットのメモリバスを採用しています。これは、ハワイの集約512ビットパスよりもはるかに狭いものです。RadeonRX480の4GBバージョンには7Gb/ s GDDR5が含まれ、224 GB / sの帯域幅が可能になりますが、現在テストしている8GBモデルは8 Gb / sメモリを使用し、スループットを256 GB/sに高めます。それでも、それはR9290の320GB/sよりはるかに少ないです。

    不足の一部は、バスを介して転送される情報の量を減らす改善されたデルタカラー圧縮で相殺されます。AMDは、NvidiaのPascalアーキテクチャと同様に、2/4/8:1のロスレス比をサポートするようになりました。Polaris 10は、フィジーで最初に見られた2MBのL2キャッシュの恩恵も受けています。これにより、GDDR5へのトリップにダイヤルバックし、GPUのワイドバスと高データレートへの依存をさらに減らすことができます。

    それでも、GPUのバックエンドをスリム化すると、解像度とアンチエイリアシングの使用率が向上するため、パフォーマンスに影響を与える必要があります。ワークロードが激化するにつれて、Polarisがハワイとどのように比較されるかについて知りたくて、Grand Theft Auto Vを非常に高い詳細設定で適度な1920×1080で起動し、アンチエイリアシングのスケールアップを開始しました。

    案の定、MSAAがオフから2倍、4倍に切り替わると、RadeonRX480がR9390よりもはるかに速く平均フレームレートから外れるのを見ることができます。AAを無効にすると、480は390の90.4に対して97.3FPSを達成します。しかし、最終的には、AMDのRadeon RX 480は1秒あたり57.5フレームになり、390の平均は62.9になります。

    タグ:
    0 0 votes
    Rating post
    Subscribe
    Notify of
    guest
    0 comments
    Inline Feedbacks
    View all comments
    0
    Would love your thoughts, please comment.x
    ()
    x