Temui GP102
Catatan Editor: Kami telah memperbarui artikel untuk menyertakan pengukuran daya, panas, dan kebisingan pada halaman tujuh dan delapan, dan kami telah mengedit kesimpulan kami untuk mencerminkan pengukuran tersebut (lihat halaman 10).
Anda memiliki kemampuan untuk memperdagangkan Pound Inggris melawan Yen Jepang. Anda memiliki resep saus pedas yang mematikan, dan itu didistribusikan di seluruh dunia. Anda baru saja menjadi mitra di perusahaan ayah mertua Anda. Apapun masalahnya, Anda berada di kelompok elit yang tidak terlalu mengkhawatirkan uang. Anda memiliki rumah pantai, Bentley, dan Bulgari. Dan sekarang Nvidia memiliki kartu grafis untuk PC gaming Anda: Titan X. Ini dibangun di atas prosesor grafis GP102 baru yang menampilkan 3584 CUDA core, didukung oleh memori GDDR5X 12GB pada bus 384-bit, dan ditawarkan dengan harga $1200.
Sebelum benchmark tunggal diterbitkan, Nvidia menerima pujian karena meluncurkan GPU berbasis Pascal ketiga dalam beberapa bulan dan kritik karena menaikkan harga andalannya—pendekatan yang membakar Intel ketika memperkenalkan Core i7-6950X dengan harga $1700+ yang belum pernah terjadi sebelumnya. . Namun, inilah masalahnya: orang-orang yang membeli yang terbaik dari yang terbaik tidak terpengaruh oleh pajak barang mewah yang merayap. Dan mereka yang benar-benar menghasilkan uang dengan PC mereka dengan senang hati membayar premi untuk perangkat keras yang dapat mempercepat pendapatan mereka.
Semua itu membuat waktu kita dengan Titan X sedikit kurang canggung, pikir kita. Tidak ada pertimbangan nilai pagi-sesudah. Anda membayar 70% lebih mahal daripada biaya GeForce GTX 1080 untuk 40% lebih banyak inti CUDA dan peningkatan bandwidth memori 50%. Kami tahu bahkan sebelum menerima kartu bahwa kinerja tidak akan sebanding dengan biaya. Namun, kami tidak sabar untuk menjalankan benchmark. Apakah Titan X meningkatkan kecepatan bingkai pada 4K cukup untuk memuaskan quarterback kursi berlengan cepat untuk memanggil 1080 tidak cukup untuk game berkualitas maksimal? Hanya ada satu cara untuk mengetahuinya.
GP102: Ini Seperti GP104, Kecuali Lebih Besar
Dengan GeForce GTX 1080, Nvidia memperkenalkan kami pada prosesor GP104 (Pascal kelas atas). Dalam semangat, GPU itu menggantikan GM204 (Maxwell kelas atas), yang terakhir terlihat di jantung GeForce GTX 980. Namun karena arsitektur Pascal disesuaikan dengan pembuatan FinFET 16nm dan memori GDDR5X yang lebih cepat, GTX 1080 yang dihasilkan tidak kesulitan menempatkan turun 30%+ kecepatan bingkai rata-rata lebih tinggi daripada GTX 980 Ti dan Titan X, keduanya ditenagai oleh GM200 (Maxwell ultra-high-end). Ini membuatnya mudah untuk melupakan langkah selanjutnya, terutama karena kami tahu bahwa GP100 15,3 miliar transistor (Ultra-high-end Pascal) berorientasi pada komputasi dan mungkin tidak ditujukan untuk desktop.
Sekarang, untuk pertama kalinya, kami memiliki semacam ‘tweener GPU, dikelilingi oleh prosesor Nvidia kelas atas dan GP104. Yang ini disebut GP102, dan secara arsitektur mirip dengan GP104, hanya lebih besar. Empat Cluster Pemrosesan Grafik menjadi enam. Pada gilirannya, 20 Multiprosesor Streaming menjadi 30. Dan dengan 128 inti CUDA FP32 per SM, GP102 menggunakan hingga 3840 blok bangunan yang dapat diprogram. GP102 sangat kompleks, meskipun (terdiri dari 12 miliar transistor). Sebagai cara untuk meningkatkan hasil, Nvidia menonaktifkan dua SM prosesor untuk Titan X-nya, sehingga jumlah inti CUDA board turun menjadi 3584. Dan karena setiap SM juga menampung delapan unit tekstur, mematikan dua di antaranya akan membuat 224 unit tekstur diaktifkan.
Spesifikasi Titan X menyebutkan jam dasar 1417 MHz, dengan frekuensi GPU Boost khas di kisaran 1531 MHz. Itu memberi kartu tersebut tingkat FP32 10,1+ TFLOPS, yang kira-kira 23% lebih tinggi dari GeForce GTX 1080.
Tidak diragukan lagi, GP104 akan mendapat manfaat dari antarmuka memori yang lebih luas, terutama pada 4K. Tapi potensi shading/texturing yang lebih besar dari GP102 pasti membutuhkan semacam rebalancing. Dengan demikian, back-end prosesor tumbuh untuk menyertakan 12 pengontrol memori 32-bit, masing-masing terikat pada delapan ROP dan 256KB L2 (seperti halnya GP104), menghasilkan total 96 ROP dan 3MB cache bersama. Ini menghasilkan jalur agregat 384-bit, yang diisi oleh Nvidia dengan 12GB dari GDDR5X 10 Gb/dtk yang sama yang ditemukan di GTX 1080.
Bandwidth memori teoritis kartu adalah 480 GB/dtk (dibandingkan 1080 GB/dtk—peningkatan 50%), meskipun throughput efektif harus lebih tinggi setelah mempertimbangkan peningkatan kompresi warna delta arsitektur Pascal.
Mengapa melanjutkan penggunaan teknologi turunan GDDR5 ketika AMD menunjukkan kepada kita banyak manfaat HBM lebih dari setahun yang lalu? Kami hanya dapat membayangkan bahwa selama fase desain GP102, Nvidia tidak yakin bagaimana pasokan HBM2 akan terguncang, dan sebagai gantinya memainkannya dengan aman dengan subsistem berbasis GDDR5X. GP100 tetap menjadi satu-satunya GPU dalam jajarannya dengan HBM2.
GPUTitan X (GP102)GeForce GTX 1080 (GP104)Titan X (GM100) SMs CUDA Cores Base Clock GPU Boost Clock GFLOPs (Base Clock) Unit Tekstur Tingkat Pengisian Texel Memori Kecepatan Data Memori Bandwidth ROPs L2 Cache Transistor TDP Ukuran Mati Node Proses
28
20
24
3584
2560
3072
1417 MHz
1607 MHz
1000 MHz
1531 MHz
1733 MHz
1075 MHz
10.157
8228
6144
224
160
192
342,9 GT/dtk
277,3 GT/s
192 GT/s
10 Gb/dtk
10 Gb/dtk
7 Gb/dtk
480 GB/dtk
320 GB/dtk
336,5 GB/dtk
96
64
96
3MB
2MB
3MB
250W
180W
250W
12 miliar
7,2 miliar
8 miliar
471 mm²
314 mm²
601 mm²
16nm
16nm
28nm
Sangat menarik bahwa Nvidia, tampaknya pada menit terakhir, memilih untuk menjauhkan Titan X dari keluarga GeForce-nya. Laman landas Titan X di geforce.com menyebutnya sebagai kartu grafis terbaik. Bukan kartu grafis gaming terbaik. Sebaliknya, “Yang Terakhir. Periode.” Tentu saja, mengingat kita berurusan dengan GP104, Titan X harusnya bagus dalam bermain game.
Tetapi keputusan perusahaan untuk mengungkap Titan X pada pertemuan AI yang diselenggarakan di Stanford menunjukkan bahwa ia berfokus pada pembelajaran mendalam kali ini. Untuk itu, sementara kecepatan FP16 dan FP64 sangat lambat pada GP104 (dan selanjutnya, pada GP102), kedua prosesor mendukung INT8 pada 4:1, menghasilkan 40,6 TOPS pada frekuensi dasar Titan X.