Зустрічайте GP102
Примітка редактора: ми оновили статтю, включивши вимірювання потужності, тепла та шуму на сторінках сьомої та восьмої, і внесли зміни до нашого висновку, щоб відобразити ці вимірювання (див. сторінку 10).
Ви вмієте торгувати британським фунтом проти японської єни. У вас є рецепт надзвичайно гострого соусу, і він розповсюджується по всьому світу. Ви щойно стали партнером у фірмі свого тестя. Як би там не було, ви належите до тієї елітної групи, яка насправді не турбується про гроші. У вас є пляжний будинок, Bentley і Bulgari. І тепер Nvidia має відеокарту для вашого ігрового ПК: Titan X. Вона побудована на новому графічному процесорі GP102 з 3584 ядрами CUDA, підкріпленому 12 ГБ пам’яті GDDR5X на 384-бітній шині, і пропонується без вибачення за 1200 доларів.
До того, як був опублікований єдиний тест, Nvidia отримала похвалу за запуск третього графічного процесора на основі Pascal за стільки ж місяців і критику за підвищення ціни свого флагмана — підхід, який спалив Intel, коли вона представила Core i7-6950X на безпрецедентній ціні 1700 доларів США + . Але ось що: людей, які купують найкраще з кращого, не впливає повзучий податок на розкіш. А ті, хто насправді заробляє гроші на своїх комп’ютерах, весело платять за обладнання, здатне прискорити їхні доходи.
Все це робить наш час із Titan X трохи менш незручним, на нашу думку. Немає врахування цінності ранку після. Ви платите на 70% більше, ніж вартість GeForce GTX 1080 за на 40% більше ядер CUDA і збільшення пропускної здатності пам’яті на 50%. Ми знали ще до того, як отримали картку, що продуктивність не буде змінюватися з вартістю. Проте ми не могли дочекатися, щоб запустити тести. Чи Titan X покращує частоту кадрів при 4K достатньо, щоб задовольнити квотербеків, які швидко називають 1080 недостатнім для максимально якісних ігор? Є лише один спосіб дізнатися.
GP102: Це як GP104, за винятком більшого
Завдяки своїй GeForce GTX 1080 Nvidia представила нам процесор GP104 (високого класу Pascal). По суті, цей графічний процесор прийшов на зміну GM204 (вищого класу Maxwell), який останній раз бачили в основі GeForce GTX 980. Але оскільки архітектура Pascal була приурочена до 16-нм виробництва FinFET і швидшої пам’яті GDDR5X, отримана GTX 1080 не мала проблем із встановленням. зниження середньої частоти кадрів на 30%+ вище, ніж у GTX 980 Ti і Titan X, обидва на базі GM200 (надвисокого класу Maxwell). Це дозволило легко забути про наступний крок угору, особливо тому, що ми знали, що GP100 з 15,3 мільярдами транзисторів (надвисокого класу Pascal) був орієнтований на обчислення і, ймовірно, не призначений для настільних комп’ютерів.
Тепер, вперше, ми маємо свого роду графічний процесор Tweener, оточений процесором Nvidia найвищого класу та GP104. Цей називається GP102, і за архітектурою він схожий на GP104, тільки більший. Чотири кластери графічної обробки стають шістьма. У свою чергу, 20 потокових мультипроцесорів перетворюються на 30. І з 128 ядрами FP32 CUDA на SM, GP102 володіє до 3840 програмованими будівельними блоками. Однак GP102 неймовірно складний (він складається з 12 мільярдів транзисторів). Щоб підвищити продуктивність, Nvidia відключає два SM процесора для свого Titan X, доводячи відлік ядра CUDA плати до 3584. А оскільки кожен SM також містить вісім блоків текстури, вимкнення двох з них залишає активними 224 блоки текстур.
Специфікація Titan X посилається на базову частоту 1417 МГц із типовими частотами GPU Boost в діапазоні 1531 МГц. Це дає карті швидкість FP32 10,1+ TFLOPS, що приблизно на 23% вище, ніж у GeForce GTX 1080.
Безсумнівно, GP104 виграв би від ще ширшого інтерфейсу пам’яті, особливо в 4K. Але більший потенціал затінення/текстурування GP102 безумовно вимагає своєрідного балансування. Таким чином, внутрішня частина процесора розширюється і включає 12 32-розрядних контролерів пам’яті, кожен з яких прив’язаний до восьми ROP і 256 КБ L2 (як у GP104), що дає загалом 96 ROP і 3 МБ спільного кешу. Це призводить до 384-бітного агрегатного шляху, який Nvidia заповнює 12 ГБ того ж GDDR5X 10 Гбіт/с, що є на GTX 1080.
Теоретична пропускна здатність пам’яті карти становить 480 ГБ/с (порівняно з 320 ГБ/с у 1080 — збільшення на 50%), хоча ефективна пропускна здатність має бути вищою, якщо врахувати покращення дельта-стиснення кольорів архітектури Pascal.
Навіщо продовжувати використовувати технологію на основі GDDR5, коли AMD показала нам численні переваги HBM більше року тому? Ми можемо лише уявити, що під час фази проектування GP102 Nvidia не була впевнена, що поставки HBM2 втратять, і натомість використовувала підсистему на основі GDDR5X. GP100 залишається єдиним графічним процесором у своїй лінійці з HBM2.
GPUTitan X (GP102)GeForce GTX 1080 (GP104)Titan X (GM100) SMs CUDA Cores Base Clock GPU Boost Clock GFLOPs (Base Clock) Текстурні одиниці Texel Швидкість заповнення Пам’яті Швидкість даних Пам’яті Пропускна здатність Пам’яті Пропускна здатність процесу ROPs L2 Cad.
28
20
24
3584
2560
3072
1417 МГц
1607 МГц
1000 МГц
1531 МГц
1733 МГц
1075 МГц
10 157
8228
6144
224
160
192
342,9 ГТ/с
277,3 ГТ/с
192 ГТ/с
10 Гбіт/с
10 Гбіт/с
7 Гбіт/с
480 ГБ/с
320 ГБ/с
336,5 ГБ/с
96
64
96
3 МБ
2 МБ
3 МБ
250 Вт
180 Вт
250 Вт
12 мільярдів
7,2 млрд
8 мільярдів
471 мм²
314 мм²
601 мм²
16 нм
16 нм
28 нм
Цікаво, що Nvidia, мабуть, в останній момент вирішила віддалити Titan X від свого сімейства GeForce. Цільова сторінка Titan X на geforce.com називає її найкращою відеокартою. Не найкраща ігрова відеокарта. Швидше, «Останнє. Період.” Звичайно, враховуючи, що ми маємо справу з GP104 більшого розміру, Titan X має бути хорошим в іграх.
Але рішення компанії представити Titan X на зустрічі з штучним інтелектом у Стенфорді свідчить про те, що цього разу вона зосереджена на глибокому навчанні. З цією метою, хоча швидкості FP16 і FP64 є жахливо повільними на GP104 (і, відповідно, на GP102), обидва процесори підтримують INT8 зі співвідношенням 4:1, що дає 40,6 TOPS на базовій частоті Titan X.