Temui GP102
Nota Editor: Kami telah mengemas kini artikel untuk memasukkan ukuran kuasa, haba dan hingar pada halaman tujuh dan lapan, dan kami telah membuat pengeditan pada kesimpulan kami untuk mencerminkan ukuran tersebut (lihat halaman 10).
Anda mempunyai kebolehan untuk berdagang Pound Britain berbanding Yen Jepun. Anda mempunyai resipi sos panas yang mematikan, dan ia diedarkan di seluruh dunia. Anda baru sahaja membuat pasangan di firma bapa mertua anda. Walau apa pun, anda berada dalam kumpulan elit yang tidak begitu risau tentang wang. Anda mempunyai rumah pantai, Bentley dan Bulgari. Dan kini Nvidia mempunyai kad grafik untuk PC permainan anda: Titan X. Ia dibina pada pemproses grafik GP102 baharu yang menampilkan teras 3584 CUDA, disokong oleh memori GDDR5X 12GB pada bas 384-bit, dan ditawarkan tanpa maaf pada harga $1200.
Sebelum satu penanda aras diterbitkan, Nvidia menerima pujian kerana melancarkan GPU berasaskan Pascal ketiga dalam beberapa bulan dan kritikan kerana menaikkan harga perdananya—pendekatan yang membakar Intel apabila ia memperkenalkan Core i7-6950X pada $1700+ yang belum pernah terjadi sebelumnya. . Namun, inilah perkaranya: orang yang membeli yang terbaik daripada yang terbaik tidak terjejas oleh cukai mewah yang menjalar. Dan mereka yang benar-benar membuat wang dengan PC mereka dengan gembira membayar premium untuk perkakasan yang dapat mempercepatkan pendapatan mereka.
Semua itu menjadikan masa kami dengan Titan X kurang janggal, kami fikir. Tiada pertimbangan nilai pagi selepas. Anda membayar 70% lebih daripada kos GeForce GTX 1080 untuk 40% lebih teras CUDA dan peningkatan lebar jalur memori sebanyak 50%. Kami tahu sebelum menerima kad bahawa prestasi tidak akan berskala dengan kos. Namun, kami tidak sabar untuk menjalankan penanda aras. Adakah Titan X meningkatkan kadar bingkai pada 4K cukup untuk memuaskan suku belakang kerusi berlengan dengan pantas untuk memanggil 1080 tidak mencukupi untuk permainan kualiti maksimum? Hanya ada satu cara untuk mengetahuinya.
GP102: Ia Seperti GP104, Kecuali Lebih Besar
Dengan GeForce GTX 1080, Nvidia memperkenalkan kami kepada pemproses GP104 (Pascal mewah). Dengan semangat, GPU itu berjaya GM204 (Maxwell mewah), kali terakhir dilihat di tengah-tengah GeForce GTX 980. Tetapi kerana seni bina Pascal telah ditetapkan masanya untuk bertepatan dengan pembuatan FinFET 16nm dan memori GDDR5X yang lebih pantas, GTX 1080 yang terhasil tidak menghadapi masalah untuk meletakkan turun 30%+ kadar bingkai purata lebih tinggi daripada GTX 980 Ti dan Titan X, kedua-duanya dikuasakan oleh GM200 (Ultra-high-end Maxwell). Ini menjadikannya mudah untuk melupakan langkah seterusnya, terutamanya kerana kami tahu bahawa 15.3 bilion-transistor GP100 (Ultra-high-end Pascal) adalah berorientasikan pengiraan dan mungkin tidak ditakdirkan untuk desktop.
Kini, buat pertama kalinya, kami mempunyai jenis ‘Tweener GPU, dikelilingi oleh pemproses tertinggi Nvidia dan GP104. Yang ini dipanggil GP102, dan dari segi seni bina ia serupa dengan GP104, hanya lebih besar. Empat Kluster Pemprosesan Grafik menjadi enam. Seterusnya, 20 Multipemproses Penstriman menjadi 30. Dan dengan 128 teras CUDA FP32 bagi setiap SM, GP102 menggunakan sehingga 3840 daripada blok binaan boleh atur cara. GP102 adalah sangat kompleks, walaupun (ia terdiri daripada 12 bilion transistor). Sebagai cara untuk meningkatkan hasil, Nvidia melumpuhkan dua daripada SM pemproses untuk Titan Xnya, menjadikan kiraan teras CUDA papan menjadi 3584. Dan kerana setiap SM juga menjadi tuan rumah lapan unit tekstur, mematikan dua daripadanya meninggalkan 224 unit tekstur didayakan.
Spesifikasi Titan X memetik jam asas 1417 MHz, dengan frekuensi Boost GPU biasa dalam julat 1531 MHz. Itu memberikan kad kadar FP32 sebanyak 10.1+ TFLOPS, iaitu kira-kira 23% lebih tinggi daripada GeForce GTX 1080.
Tidak syak lagi, GP104 akan mendapat manfaat daripada antara muka memori yang lebih luas, terutamanya pada 4K. Tetapi potensi teduhan/tekstur GP102 yang lebih besar pasti memerlukan pengimbangan semula. Oleh itu, bahagian belakang pemproses berkembang untuk menyertakan 12 pengawal memori 32-bit, setiap satu terikat kepada lapan ROP dan 256KB L2 (seperti GP104), menghasilkan sejumlah 96 ROP dan 3MB cache kongsi. Ini menghasilkan laluan agregat 384-bit, yang diisi oleh Nvidia dengan 12GB daripada 10 Gb/s GDDR5X yang sama ditemui pada GTX 1080.
Jalur lebar memori teori kad ialah 480 GB/s (berbanding 320 GB/s 1080—peningkatan 50%), walaupun daya pemprosesan yang berkesan harus lebih tinggi selepas mengambil kira penambahbaikan mampatan warna delta seni bina Pascal.
Mengapakah penggunaan berterusan teknologi terbitan GDDR5 apabila AMD menunjukkan kepada kita banyak faedah HBM lebih setahun yang lalu? Kami hanya boleh membayangkan bahawa semasa fasa reka bentuk GP102, Nvidia tidak pasti bagaimana bekalan HBM2 akan goyah, dan sebaliknya memainkannya dengan selamat dengan subsistem berasaskan GDDR5X. GP100 kekal sebagai satu-satunya GPU dalam barisan dengan HBM2.
GPUTitan X (GP102)GeForce GTX 1080 (GP104)Titan X (GM100) SMs Teras CUDA Jam Asas GPU Boost Clock GFLOPs (Jam Asas) Unit Tekstur Texel Kadar Isian Kadar Data Memori Lebar Jalur Memori ROP L2 Cache TDP Transistor Nod Proses Saiz Mati
28
20
24
3584
2560
3072
1417 MHz
1607 MHz
1000 MHz
1531 MHz
1733 MHz
1075 MHz
10,157
8228
6144
224
160
192
342.9 GT/s
277.3 GT/s
192 GT/s
10 Gb/s
10 Gb/s
7 Gb/s
480 GB/s
320 GB/s
336.5 GB/s
96
64
96
3MB
2MB
3MB
250W
180W
250W
12 bilion
7.2 bilion
8 bilion
471 mm²
314 mm²
601 mm²
16nm
16nm
28nm
Sungguh menarik bahawa Nvidia, nampaknya pada saat-saat akhir, memilih untuk menjauhkan Titan X daripada keluarga GeForcenya. Halaman pendaratan Titan X di geforce.com memanggil ini sebagai kad grafik terbaik. Bukan kad grafik permainan terbaik. Sebaliknya, “The Ultimate. Tempoh.” Sudah tentu, memandangkan kami berurusan dengan GP104 bersaiz lebih tinggi, Titan X sepatutnya mahir dalam permainan.
Tetapi keputusan syarikat untuk mendedahkan Titan X pada pertemuan AI yang dihoskan Stanford menunjukkan ia memberi tumpuan kepada pembelajaran mendalam kali ini. Untuk itu, sementara kadar FP16 dan FP64 sangat perlahan pada GP104 (dan lanjutan, pada GP102), kedua-dua pemproses menyokong INT8 pada 4:1, menghasilkan 40.6 TOPS pada frekuensi asas Titan X.