GP102를 만나보세요
편집자 주: 7페이지와 8페이지에 전력, 열 및 소음 측정을 포함하도록 기사를 업데이트했으며 이러한 측정을 반영하도록 결론을 수정했습니다(10페이지 참조).
당신은 일본 엔화에 대해 영국 파운드를 거래하는 재주가 있습니다. 당신은 엄청난 핫 소스 레시피를 가지고 있으며 전 세계적으로 배포되고 있습니다. 당신은 방금 시아버지 회사에 파트너가 되었습니다. 어떤 경우이든, 당신은 돈에 대해 별로 걱정하지 않는 엘리트 그룹에 속해 있습니다. 비치 하우스, Bentley, Bulgari가 있습니다. 이제 Nvidia에는 게임용 PC용 그래픽 카드인 Titan X가 있습니다. 이 그래픽 카드는 3584개의 CUDA 코어를 탑재하고 384비트 버스에서 12GB의 GDDR5X 메모리를 지원하는 새로운 GP102 그래픽 프로세서를 기반으로 하며 가격은 1200달러입니다.
단일 벤치마크가 발표되기 전에 Nvidia는 몇 개월 만에 세 번째 Pascal 기반 GPU를 출시한 것에 대해 찬사를 받았고 플래그십의 가격을 올린 것에 대한 비판을 받았습니다. . 하지만 문제가 있습니다. 최고 중 최고를 구입하는 사람들은 밀려드는 사치세의 영향을 받지 않습니다. 그리고 실제로 PC로 돈을 버는 사람들은 수입을 가속화할 수 있는 하드웨어에 대한 프리미엄을 즐겁게 지불합니다.
이 모든 것이 Titan X와 함께 하는 시간을 조금 덜 어색하게 만듭니다. 사후 가치 고려가 없습니다. 40% 더 많은 CUDA 코어와 50% 메모리 대역폭 향상을 위해 GeForce GTX 1080보다 70% 더 많은 비용을 지불합니다. 우리는 성능이 비용에 비례하지 않는다는 것을 카드를 받기 전부터 알고 있었습니다. 그래도 벤치마크를 실행하기를 기다릴 수 없었습니다. Titan X는 4K에서 프레임 속도를 향상시켜 안락의자 쿼터백이 최고 품질의 게임을 하기에는 부족한 1080을 빠르게 만족시킬 수 있습니까? 알아낼 수 있는 방법은 한 가지뿐입니다.
GP102: 더 큰 것을 제외하고는 GP104와 같습니다.
Nvidia는 GeForce GTX 1080을 통해 GP104(고급 Pascal) 프로세서를 소개했습니다. 그 GPU는 지포스 GTX 980의 핵심이었던 GM204(고급 Maxwell)를 계승했습니다. 그러나 Pascal 아키텍처는 16nm FinFET 제조 및 더 빠른 GDDR5X 메모리와 일치하도록 타이밍이 맞춰져 있었기 때문에 결과 GTX 1080은 아무런 문제가 없었습니다. GTX 980 Ti 및 Titan X보다 평균 프레임 속도가 30% 이상 낮습니다. 둘 다 GM200(초고급 Maxwell) 기반입니다. 이것은 특히 153억 개의 트랜지스터 GP100(초고급 Pascal)이 컴퓨팅 지향적이며 아마도 데스크탑용이 아니라는 것을 알고 있었기 때문에 다음 단계를 잊어버리기 쉽습니다.
이제 처음으로 Nvidia의 최고급 프로세서와 GP104로 둘러싸인 일종의 ‘트위너 GPU’가 생겼습니다. 이것은 GP102라고 하며 구조적으로는 GP104와 비슷하지만 더 큽니다. 4개의 그래픽 처리 클러스터가 6개가 됩니다. 결과적으로 20개의 스트리밍 멀티프로세서는 30개가 됩니다. SM당 128개의 FP32 CUDA 코어가 있는 GP102는 최대 3840개의 프로그래밍 가능한 빌딩 블록을 사용합니다. 그러나 GP102는 엄청나게 복잡합니다(120억 개의 트랜지스터로 구성됨). 수율을 개선하기 위한 수단으로 Nvidia는 Titan X에 대한 프로세서 SM 중 2개를 비활성화하여 보드의 CUDA 코어 수를 3584개로 줄였습니다. 그리고 각 SM도 8개의 텍스처 유닛을 호스팅하기 때문에 그 중 2개를 끄면 224개의 텍스처 유닛이 활성화됩니다.
Titan X의 사양은 1531MHz 범위의 일반적인 GPU 부스트 주파수와 함께 1417MHz 기본 클록을 인용합니다. 이는 카드에 10.1+ TFLOPS의 FP32 속도를 제공하며, 이는 GeForce GTX 1080보다 약 23% 더 높습니다.
의심할 여지 없이 GP104는 특히 4K에서 훨씬 더 넓은 메모리 인터페이스의 이점을 얻었을 것입니다. 그러나 GP102의 더 큰 셰이딩/텍스처링 가능성은 확실히 일종의 재조정을 요구합니다. 따라서 프로세서의 백엔드는 각각 8개의 ROP와 256KB의 L2(GP104에서와 같이)에 바인딩된 12개의 32비트 메모리 컨트롤러를 포함하도록 확장되어 총 96개의 ROP와 3MB의 공유 캐시를 생성합니다. 결과적으로 Nvidia는 GTX 1080에서 볼 수 있는 동일한 10Gb/s GDDR5X의 12GB로 채우는 384비트 집계 경로를 생성합니다.
카드의 이론상 메모리 대역폭은 480GB/s(1080의 320GB/s 대비 50% 증가)이지만 Pascal 아키텍처의 델타 색상 압축 개선을 고려하면 유효 처리량이 더 높아야 합니다.
AMD가 1년 전에 HBM의 많은 이점을 보여줬을 때 GDDR5 파생 기술을 계속 사용하는 이유는 무엇입니까? 우리는 GP102의 설계 단계에서 Nvidia가 HBM2의 공급이 어떻게 흔들릴지 확신하지 못했고 대신 GDDR5X 기반 하위 시스템으로 안전하게 플레이했다고 상상할 수 있습니다. GP100은 HBM2 라인업에서 유일한 GPU로 남아 있습니다.
GPUTitan X(GP102)GeForce GTX 1080(GP104)Titan X(GM100) SMs CUDA 코어 베이스 클럭 GPU 부스트 클럭 GFLOPs(베이스 클럭) 텍스처 유닛 텍셀 필 레이트 메모리 데이터 레이트 메모리 대역폭 ROPs L2 캐시 TDP 트랜지스터 다이 크기 프로세스 노드
28
20
24
3584
2560
3072
1417MHz
1607MHz
1000MHz
1531MHz
1733MHz
1075MHz
10,157
8228
6144
224
160
192
342.9GT/s
277.3GT/s
192GT/s
10Gb/s
10Gb/s
7Gb/s
480GB/s
320GB/s
336.5GB/초
96
64
96
3MB
2MB
3MB
250W
180W
250W
120억
72억
80억
471mm²
314mm²
601mm²
16nm
16nm
28nm
Nvidia가 마지막 순간에 Titan X를 GeForce 제품군과 거리를 두기로 선택했다는 점은 흥미롭습니다. geforce.com의 Titan X 랜딩 페이지에서는 이것을 최고의 그래픽 카드라고 부릅니다. 궁극의 게임용 그래픽 카드는 아닙니다. 오히려 “궁극기. 기간.” 물론 업사이즈 GP104를 다루고 있다는 점을 감안하면 Titan X는 게임을 잘해야 합니다.
그러나 스탠포드에서 주최한 AI 모임에서 Titan X를 공개하기로 한 회사의 결정은 이번에는 딥 러닝에 중점을 두고 있음을 보여줍니다. 이를 위해 FP16 및 FP64 속도는 GP104(및 GP102)에서 엄청나게 느리지만 두 프로세서 모두 4:1에서 INT8을 지원하여 Titan X의 기본 주파수에서 40.6 TOPS를 생성합니다.