Встречайте GP102
Примечание редактора. Мы обновили статью, включив в нее измерения мощности, тепла и шума на седьмой и восьмой страницах, и внесли изменения в наш вывод, чтобы отразить эти измерения (см. стр. 10).
Вы умеете торговать британским фунтом против японской иены. У вас есть убийственный рецепт острого соуса, и он распространяется по всему миру. Вы только что стали партнером в фирме своего тестя. Как бы то ни было, вы относитесь к той элитной группе, которая на самом деле не беспокоится о деньгах. У вас есть пляжный домик, Bentley и Bulgari. И теперь у Nvidia есть графическая карта для вашего игрового ПК: Titan X. Она построена на новом графическом процессоре GP102 с 3584 ядрами CUDA, поддерживает 12 ГБ памяти GDDR5X на 384-битной шине и предлагается за 1200 долларов.
Еще до того, как был опубликован хоть один тест, Nvidia получила похвалу за выпуск третьего графического процессора на базе Pascal за столько же месяцев и критику за повышение цены своего флагмана — подход, который обжег Intel, когда она представила Core i7-6950X по беспрецедентной цене 1700 долларов +. . Однако вот в чем дело: люди, которые покупают лучшее из лучшего, не страдают от налога на роскошь. А те, кто действительно зарабатывает деньги на своих ПК, с удовольствием платят надбавки за аппаратное обеспечение, способное увеличить их доходы.
Мы думаем, что все это делает наше время с Titan X немного менее неловким. Там нет оценки стоимости на следующее утро. Вы платите на 70 % больше, чем стоимость GeForce GTX 1080, за увеличение количества ядер CUDA на 40 % и увеличение пропускной способности памяти на 50 %. Еще до того, как мы получили карту, мы знали, что производительность не зависит от стоимости. Тем не менее, нам не терпелось запустить тесты. Улучшает ли Titan X частоту кадров в разрешении 4K настолько, чтобы удовлетворить сидящих в кресле квотербеков, быстро назвавших разрешение 1080 недостаточным для игр с максимальным качеством? Есть только один способ узнать.
GP102: это как GP104, только больше
Со своей GeForce GTX 1080 Nvidia представила нам процессор GP104 (high-end Pascal). По духу этот графический процессор пришел на смену GM204 (высокопроизводительный Maxwell), который в последний раз использовался в основе GeForce GTX 980. Но поскольку архитектура Pascal была рассчитана на то, чтобы совпасть с 16-нм производством FinFET и более быстрой памятью GDDR5X, получившийся GTX 1080 без проблем поставил на 30%+ выше средняя частота кадров, чем у GTX 980 Ti и Titan X, обе на базе GM200 (сверхвысокого класса Maxwell). Это позволило легко забыть о следующем шаге, особенно потому, что мы знали, что 15,3-миллиардный транзистор GP100 (сверхвысокий Pascal) ориентирован на вычисления и, вероятно, не предназначен для настольных компьютеров.
Теперь впервые у нас есть своего рода «твинерный графический процессор», окруженный самым мощным процессором Nvidia и GP104. Этот называется GP102, и архитектурно он похож на GP104, только крупнее. Четыре кластера обработки графики становятся шестью. В свою очередь, 20 потоковых мультипроцессоров становятся 30. А со 128 ядрами FP32 CUDA на SM, GP102 содержит до 3840 программируемых строительных блоков. Однако GP102 невероятно сложен (он состоит из 12 миллиардов транзисторов). В качестве средства повышения производительности Nvidia отключает два SM процессора для своего Titan X, уменьшая количество ядер CUDA платы до 3584. А поскольку каждый SM также содержит восемь текстурных модулей, отключение двух из них оставляет 224 текстурных модуля включенными.
В спецификации Titan X указана базовая тактовая частота 1417 МГц с типичными частотами GPU Boost в диапазоне 1531 МГц. Это дает карте скорость FP32 10,1+ TFLOPS, что примерно на 23% выше, чем у GeForce GTX 1080.
Без сомнения, GP104 выиграл бы от еще более широкого интерфейса памяти, особенно при разрешении 4K. Но больший потенциал затенения/текстурирования GP102 определенно требует своего рода перебалансировки. Таким образом, серверная часть процессора расширяется и включает 12 32-разрядных контроллеров памяти, каждый из которых связан с восемью ROP и 256 КБ L2 (как в GP104), что дает в общей сложности 96 ROP и 3 МБ общего кэша. Это приводит к 384-битному совокупному пути, который Nvidia заполняет 12 ГБ той же GDDR5X 10 Гбит / с, что и на GTX 1080.
Теоретическая пропускная способность памяти карты составляет 480 ГБ/с (по сравнению с 320 ГБ/с у 1080 — увеличение на 50%), хотя эффективная пропускная способность должна быть выше с учетом улучшений дельта-сжатия цвета в архитектуре Pascal.
Зачем продолжать использовать технологию, производную от GDDR5, когда AMD продемонстрировала нам множество преимуществ HBM более года назад? Мы можем только представить, что на этапе проектирования GP102 Nvidia не была уверена в том, что поставки HBM2 будут сокращаться, и вместо этого перестраховалась с подсистемой на основе GDDR5X. GP100 остается единственным графическим процессором в своей линейке с HBM2.
GPUTitan X (GP102)GeForce GTX 1080 (GP104)Titan X (GM100) SM Ядра CUDA Базовая тактовая частота GPU Повышенная тактовая частота GFLOP (базовая тактовая частота) Единицы текстуры Texel Скорость заполнения Память Скорость передачи данных Пропускная способность памяти ROP Кэш L2 TDP Транзисторы Размер кристалла Процессный узел
28
20
24
3584
2560
3072
1417 МГц
1607 МГц
1000 МГц
1531 МГц
1733 МГц
1075 МГц
10 157
8228
6144
224
160
192
342,9 ГТ/с
277,3 ГТ/с
192 ГТ/с
10 Гбит/с
10 Гбит/с
7 Гбит/с
480 ГБ/с
320 ГБ/с
336,5 ГБ/с
96
64
96
3 МБ
2 МБ
3 МБ
250 Вт
180 Вт
250 Вт
12 миллиардов
7,2 миллиарда
8 миллиардов
471 мм²
314 мм²
601 мм²
16 нм
16 нм
28 нм
Интересно, что Nvidia, видимо, в последний момент решила дистанцировать Titan X от своего семейства GeForce. На целевой странице Titan X на geforce.com эта видеокарта названа лучшей. Не лучшая игровая видеокарта. Скорее, «Ультимейт. Период.» Конечно, учитывая, что мы имеем дело с увеличенным GP104, Titan X должен хорош в играх.
Но решение компании представить Titan X на встрече ИИ в Стэнфорде показывает, что на этот раз она сосредоточилась на глубоком обучении. С этой целью, в то время как скорости FP16 и FP64 ужасно низкие на GP104 (и, соответственно, на GP102), оба процессора поддерживают INT8 с соотношением 4:1, что дает 40,6 TOPS на базовой частоте Titan X.