Lernen Sie GP102 kennen
Anmerkung des Herausgebers: Wir haben den Artikel aktualisiert, um Strom-, Wärme- und Geräuschmessungen auf den Seiten sieben und acht aufzunehmen, und wir haben Änderungen an unserer Schlussfolgerung vorgenommen, um diese Messungen widerzuspiegeln (siehe Seite 10).
Sie haben ein Händchen dafür, das Britische Pfund gegen den Japanischen Yen zu traden. Sie haben ein Killer-Rezept für scharfe Saucen und es wird weltweit vertrieben. Sie sind gerade Teilhaber in der Firma Ihres Schwiegervaters geworden. Wie auch immer, Sie gehören zu dieser Elitegruppe, die sich nicht wirklich um Geld kümmert. Sie haben das Strandhaus, den Bentley und den Bulgari. Und jetzt hat Nvidia eine Grafikkarte für Ihren Gaming-PC: die Titan X. Sie basiert auf einem neuen GP102-Grafikprozessor mit 3584 CUDA-Kernen, unterstützt von 12 GB GDDR5X-Speicher auf einem 384-Bit-Bus und wird kompromisslos für 1200 US-Dollar angeboten.
Bevor jemals ein einziger Benchmark veröffentlicht wurde, erhielt Nvidia Lob für die Einführung einer dritten Pascal-basierten GPU in ebenso vielen Monaten und Kritik für die Preiserhöhung seines Flaggschiffs – ein Ansatz, der Intel verbrannte, als es den Core i7-6950X für beispiellose 1700 $+ einführte . Aber hier ist die Sache: Die Leute, die das Beste vom Besten kaufen, sind nicht von einer schleichenden Luxussteuer betroffen. Und wer mit seinem PC tatsächlich Geld verdient, zahlt fröhlich Prämien für Hardware, die sein Einkommen beschleunigen kann.
All das macht unsere Zeit mit der Titan X etwas weniger umständlich, finden wir. Es gibt keine Berücksichtigung des Werts am Morgen danach. Sie zahlen 70 % mehr als die Kosten einer GeForce GTX 1080 für 40 % mehr CUDA-Kerne und 50 % mehr Speicherbandbreite. Wir wussten, bevor wir überhaupt eine Karte erhielten, dass die Leistung nicht mit den Kosten skalieren würde. Trotzdem konnten wir es kaum erwarten, die Benchmarks laufen zu lassen. Verbessert Titan X die Bildraten bei 4K ausreichend, um die Sessel-Quarterbacks zufrieden zu stellen, die schnell 1080 anrufen, die für Spiele in maximaler Qualität nicht ausreichen? Es gibt nur einen Weg, das herauszufinden.
GP102: Es ist wie GP104, außer größer
Nvidia hat uns mit seiner GeForce GTX 1080 den GP104 (High-End Pascal) Prozessor vorgestellt. Im Geiste folgte diese GPU auf GM204 (High-End-Maxwell), zuletzt im Herzen der GeForce GTX 980. Da die Pascal-Architektur jedoch zeitlich auf die 16-nm-FinFET-Fertigung und den schnelleren GDDR5X-Speicher abgestimmt war, hatte die resultierende GTX 1080 keine Probleme beim Putten weniger als 30 % höhere durchschnittliche Bildraten als GTX 980 Ti und Titan X, beide angetrieben von GM200 (Ultra-High-End-Maxwell). Dies machte es leicht, den nächsten Schritt nach oben zu vergessen, zumal wir wussten, dass der GP100 mit 15,3 Milliarden Transistoren (Ultra-High-End-Pascal) rechenorientiert und wahrscheinlich nicht für den Desktop bestimmt war.
Jetzt haben wir zum ersten Mal eine Art Tweener-GPU, umgeben von Nvidias High-End-Prozessor und GP104. Dieser hier heißt GP102 und ist architektonisch ähnlich wie GP104, nur größer. Aus vier Grafikverarbeitungsclustern werden sechs. Aus 20 Streaming-Multiprozessoren werden wiederum 30. Und mit 128 FP32-CUDA-Kernen pro SM verfügt GP102 über bis zu 3840 der programmierbaren Bausteine. GP102 ist jedoch unglaublich komplex (es besteht aus 12 Milliarden Transistoren). Um die Ausbeute zu verbessern, deaktiviert Nvidia zwei der SMs des Prozessors für seine Titan X, wodurch die Anzahl der CUDA-Kerne des Boards auf 3584 gesenkt wird. Und da jeder SM auch acht Textureinheiten beherbergt, bleiben durch das Ausschalten von zwei davon 224 Textureinheiten aktiviert.
Die Spezifikation von Titan X gibt einen Basistakt von 1417 MHz an, mit typischen GPU-Boost-Frequenzen im Bereich von 1531 MHz. Das gibt der Karte eine FP32-Rate von 10,1+ TFLOPS, was etwa 23 % höher ist als die GeForce GTX 1080.
Ohne Zweifel hätte GP104 von einer noch breiteren Speicherschnittstelle profitiert, insbesondere bei 4K. Aber das größere Schattierungs-/Texturierungspotenzial von GP102 erfordert definitiv eine Art Neugewichtung. Als solches wächst das Back-End des Prozessors auf 12 32-Bit-Speichercontroller an, die jeweils an acht ROPs und 256 KB L2 (wie bei GP104) gebunden sind, was insgesamt 96 ROPs und 3 MB gemeinsam genutzten Cache ergibt. Dies führt zu einem aggregierten 384-Bit-Pfad, den Nvidia mit 12 GB des gleichen 10-Gb/s-GDDR5X auffüllt, das auf GTX 1080 zu finden ist.
Die theoretische Speicherbandbreite der Karte beträgt 480 GB/s (gegenüber 320 GB/s der 1080er – eine Steigerung um 50 %), obwohl der effektive Durchsatz höher sein sollte, wenn man die Verbesserungen der Delta-Farbkomprimierung der Pascal-Architektur berücksichtigt.
Warum die fortgesetzte Verwendung von GDDR5-abgeleiteter Technologie, wenn AMD uns vor mehr als einem Jahr die vielen Vorteile von HBM gezeigt hat? Wir können uns nur vorstellen, dass Nvidia während der Designphase des GP102 nicht sicher war, wie das Angebot an HBM2 ausfallen würde, und stattdessen mit einem GDDR5X-basierten Subsystem auf Nummer sicher gegangen ist. GP100 bleibt die einzige GPU in seiner Aufstellung mit HBM2.
GPUTitan X (GP102)GeForce GTX 1080 (GP104)Titan X (GM100) SMs CUDA-Kerne Basistakt GPU-Boost-Takt GFLOPs (Basistakt) Textureinheiten Texel-Füllrate Speicherdatenrate Speicherbandbreite ROPs L2-Cache-TDP-Transistoren Die-Größe Prozessknoten
28
20
24
3584
2560
3072
1417MHz
1607 MHz
1000MHz
1531 MHz
1733MHz
1075 MHz
10.157
8228
6144
224
160
192
342,9 GT/s
277,3 GT/s
192 GT/s
10 GB/s
10 GB/s
7 GB/s
480GB/Sek
320GB/Sek
336,5 GB/s
96
64
96
3 MB
2MB
3 MB
250W
180W
250W
12 Milliarden
7,2 Milliarden
8 Milliarden
471 mm²
314 mm²
601 mm²
16nm
16nm
28nm
Es ist interessant, dass Nvidia anscheinend in letzter Minute beschlossen hat, Titan X von seiner GeForce-Familie zu distanzieren. Die Titan X Landing Page auf geforce.com nennt dies die ultimative Grafikkarte. Nicht die ultimative Gaming-Grafikkarte. Vielmehr „Das Ultimative. Zeitraum.“ Angesichts der Tatsache, dass wir es mit einem größeren GP104 zu tun haben, sollte Titan X natürlich gut im Spielen sein.
Aber die Entscheidung des Unternehmens, Titan X bei einem in Stanford veranstalteten KI-Treffen vorzustellen, zeigt, dass es sich diesmal auf Deep Learning konzentriert. Während die FP16- und FP64-Raten auf GP104 (und damit auf GP102) düster langsam sind, unterstützen beide Prozessoren INT8 mit 4:1, was 40,6 TOPS bei der Basisfrequenz von Titan X ergibt.