Nvidia GeForce RTX 3080 파운더스 에디션 검토: 성능의 엄청난 세대 간 도약

쉬운 목차

을위한

가장 빠른 그래픽 카드(3090이 도착할 때까지)
RTX 2080 Super와 동일한 가격
진정한 4K 60fps 이상의 게임 제공
적당히 시원하고 조용하게 실행
향후 게임을 위한 주요 아키텍처 업데이트

에 맞서

단일 GPU에 대한 최고 TDP(3090까지)
CPU 병목 현상의 가능성
빛을 발하려면 1440p 또는 4K 디스플레이가 필요합니다.
12핀 전원 어댑터는 판매하지 않습니다.
RGB 블링 없음(그러나 이것은 많은 사람들에게 프로입니다!)

Nvidia의 GeForce RTX 3080 Founders Edition이 출시되어 GPU 벤치마크 계층에서 최고의 자리를 주장하고 현재 사용 가능한 최고의 그래픽 카드로 선정되었습니다. 몇 달 간의 기다림 끝에 마침내 독립적인 벤치마크와 테스트 데이터를 갖게 되었습니다. Nvidia는 도전을 포기하고 Ampere 아키텍처가 테이블에 제공하는 것과 일치하거나 이기기 위해 AMD의 Big Navi에 분명히 도전했습니다.

우리는 검토할 다른 타사 RTX 3080 카드가 있으므로 현재 최종 평결을 보류할 예정이며, 이는 빠르면 내일 시작됩니다. 이는 좋은 소식입니다. RTX 20 시리즈 출시와 마찬가지로 첫 달 동안 고객이 Nvidia의 Founders Edition으로 제한되지 않을 것이라는 의미이기 때문입니다. 또 다른 좋은 소식은 이번에는 Founders Edition ‘세금’이 없다는 것입니다. RTX 3080 FE의 가격은 Nvidia에서 직접 $699이며, 이는 당분간 RTX 3080 카드의 기본 가격입니다. 나쁜 소식은 우리가 이례적으로 높은 수요를 예상하는 만큼 공급이 충분하지 않을 것으로 완전히 예상한다는 것입니다.

결론은 스포일러를 신경 쓰지 않는다면 RTX 3080 FE가 RTX 2080 Ti보다 평균적으로 33% 더 빠르다는 것입니다. 또는 다른 비교 지점을 선호한다면 RTX 2080 Super보다 57%, RTX 2080 FE보다 69% 빠릅니다. 젠장, Titan RTX보다 26% 더 빠릅니다!

하지만 함정이 있습니다. 우리는 4K 울트라 설정에서 실행되는 테스트 제품군 전체에서 ‘퍼센트 더 빠른’ 결과를 모두 측정했습니다. 리드는 1440p로 떨어지면 좁아지고 1080p에서는 훨씬 더 줄어듭니다. 1080p 울트라에서 2080 FE보다 여전히 42% 빠르지만 고해상도용으로 만들어진 카드입니다. 또한 완전한 3080 경험을 얻으려면 더 빠른 CPU가 필요할 수 있습니다. 자세한 내용은 함께 제공되는 GeForce RTX 3080 CPU Scaling 문서를 참조하십시오.

아마존에서 Nvidia GeForce RTX 3080 $2,600

Nvidia GPU 사양 그래픽 카드RTX 3080 FERTX 2080 Super FERTX 2080 FE 아키텍처 프로세스(nm) 트랜지스터(십억) 다이 크기(mm^2) GPC SM FP32 CUDA 코어 텐서 코어 RT 코어 부스트 클럭(MHz) VRAM 속도(Gbps) VRAM(GB ) VRAM 버스 폭 ROP TPC TMU GFLOPS FP32 Tensor TFLOPS FP16(희소성) RT TFLOPS 대역폭(GBps) TDP(와트) 출시 날짜 출시 가격

GA102
TU104
TU104

삼성 8N
TSMC 12FFN
TSMC 12FFN

28.3
13.6
13.6

628.4
545
545

6
6
6

68
48
46

8704
3072
2944

272
384
368

68
48
46

1710
1815년
1800년

19
15.5
14

10
8
8

320
256
256

96
64
64

34
24
23

272
192
184

29768
11151
10598

119 (238)
89
85

58
26
25

760
496
448

320
250
225

치수(mm)
285x112x38
267x116x38
267x116x38

무게(g)
1355
1278
1260

9월 20일
7월-19일
9월 18일

$699
$699
$799

GA102: 야수의 심장을 만나다

GeForce RTX 3080 및 기타 관련 GPU를 구동하는 Ampere 아키텍처에 대해 자세히 설명하는 별도의 기사가 있습니다. Turing 아키텍처와 비교하여 변경된 모든 사항에 대한 전체 개요를 보려면 여기에서 시작하는 것이 좋습니다. 그러나 가장 중요한 변경 사항의 하이라이트는 다음과 같습니다.

GA102는 삼성의 8N 프로세스를 사용하여 리소그래피에서 한 자릿수까지 떨어진 Nvidia의 첫 번째 GPU입니다. 일반적인 합의는 TSMC의 N7 노드가 전반적으로 ‘더 우수’하지만 비용도 더 많이 들고 현재 Nvidia의 자체 A100을 포함하여 수요가 매우 높다는 것입니다. 소비자용 Ampere GPU가 7nm로 더 나을 수 있었습니까? 아마도. 그러나 비용이 더 들었거나 제한된 수량으로만 제공되었거나 몇 달 더 지연되었을 수 있습니다. 그럼에도 불구하고 GA102는 여전히 크고 강력한 칩으로 628.4mm 정사각형 다이에 283억 개의 트랜지스터가 들어 있습니다. RTX 2080 Ti에 사용된 TU102 칩보다 트랜지스터가 52% 더 많지만 면적은 17% 더 작습니다.

Ampere는 분할 아키텍처로 끝납니다. GA100은 데이터 센터에 대한 야망을 가지고 있는 반면 GA102 및 기타 소비자 칩은 상당한 차이가 있습니다. GA100은 과학적 워크로드를 위한 FP64 성능에 훨씬 더 초점을 맞추고 딥 러닝 하드웨어를 두 배로 늘립니다. 한편 GA102는 대부분의 FP64 기능을 삭제하고 대신 레이 트레이싱 하드웨어와 기타 아키텍처 개선 사항을 포함합니다. GA102와 GA104에서 볼 수 있는 Ampere SM을 자세히 살펴보겠습니다.

Nvidia GPU는 여러 개의 GPC(그래픽 처리 클러스터)로 구성되며 각 GPC에는 몇 개의 SM(스트리밍 멀티프로세서)이 있습니다. Nvidia는 각 SM을 별도의 데이터 세트에서 작동할 수 있는 4개의 파티션으로 분할합니다. Ampere를 사용하면 각 SM 파티션에는 이제 16개의 FP32 CUDA 코어, 16개의 FP32/INT CUDA 코어, 3세대 Tensor 코어, 로드/저장 장치 및 특수 기능 장치가 있습니다. 전체 SM은 공유 L1 캐시와 메모리에 액세스할 수 있으며 단일 2세대 RT 코어가 있습니다. 총 64개의 FP32 코어와 64개의 FP32/INT 코어, 4개의 Turing 코어 및 1개의 RT 코어를 의미합니다. 조금 더 분해해 보겠습니다.

Turing GPU는 동시 FP32(32비트 부동 소수점) 및 INT(32비트 정수) 연산에 대한 지원을 추가했습니다. FP32는 그래픽 및 게임에서 가장 중요한 작업 부하인 경향이 있지만 주소 계산, 텍스처 조회 및 기타 다양한 유형의 코드와 같은 작업에 대해 여전히 상당한 양의 INT 작업이 있습니다. Ampere를 사용하면 INT 데이터 경로가 INT 또는 FP32를 지원하도록 업그레이드되지만 동시에는 지원되지 않습니다.

원시 사양을 보면 Ampere는 우리가 측정한 70%보다 훨씬 더 큰 성능 향상을 보입니다. 30 TFLOPS! 그러나 일반적으로 두 번째 데이터 경로가 둘 중 하나 또는 둘 중 하나인 상황이기 때문에 그렇게 높지 않습니다. 동일한 주기의 파이프라인에서 두 가지 유형의 명령을 모두 수행할 수 없습니다. Nvidia는 게임 계산의 약 35%가 INT 연산이라고 밝혔습니다. 즉, RTX 3080에서 20TFLOPS의 FP32 및 10TOPS의 INT와 같은 결과를 얻게 될 것입니다.

이 주제에 대해 이야기하는 동안 향상된 성능의 큰 부분은 증가된 전력 제한에서 비롯된다는 점도 지적해 보겠습니다. RTX 2080은 225W 부품(Founders Edition용)이고 RTX 3080은 기본적으로 여기에 100W를 추가합니다. 70% 더 많은 성능을 위해 다시 절반으로 더 많은 전력을 공급합니다. 기술적으로 전체 효율성에서 승리했지만 성능을 추구하기 위해 Nvidia는 전압 및 주파수 곡선에서 더 오른쪽으로 이동해야 했습니다. Nvidia는 RTX 3080이 2080과 3080 모두에서 성능을 동일한 수준으로 제한하면 와트당 성능이 90% 향상될 수 있다고 말합니다. 하지만 누가 그런 식으로 성능을 제한하고 싶겠습니까? 글쎄, 아마도 노트북이지만 거기에 가지 말자.

크게 변경되지 않은 한 가지는 비디오 포트입니다. 알겠습니다. 부분적으로만 사실입니다. 첫째, 단일 HDMI 포트가 있지만 Turing의 HDMI 2.0b 대신 HDMI 2.1이지만 3개의 DisplayPort 연결은 1.4a로 유지됩니다. 그리고 마지막으로 중요한 것은 이번 라운드에는 VirtualLink 포트가 없다는 것입니다. 분명히 VirtualLink는 죽었습니다. 찢다. 다양한 포트는 모두 실제로 시각적으로 무손실이 아닌 “시각적으로 무손실” 기술인 DSC(디스플레이 스트림 압축)를 사용하여 8K60을 지원합니다. 하지만 8K에서는 눈치채지 못할 수도 있습니다.

코어로 돌아가서 GA102의 Nvidia 3세대 텐서 코어는 8x4x4 FP16 매트릭스에서 작동하므로 사이클당 최대 128개의 매트릭스 작업이 가능합니다. (Turing의 텐서 코어는 4x4x4 행렬을 사용하는 반면 GA100은 8x4x8 행렬을 사용합니다.) FMA(Fused Multiply-Add)를 사용하면 텐서 코어당 사이클당 256FP 작업입니다. 총 272개의 텐서 코어와 클럭 속도를 곱하면 119TFLOPS의 FP16 컴퓨팅이 제공됩니다. 그러나 Ampere의 텐서 코어는 세분화된 희소성에 대한 지원도 추가합니다. 기본적으로 답은 항상 0이므로 0을 곱하는 데 시간을 낭비하지 않습니다. 희소성은 이를 사용할 수 있는 애플리케이션에서 최대 2배의 FP16 성능을 제공할 수 있습니다.

RT 코어는 클럭당 광선/삼각형 교차 계산을 최대 두 배로 향상시켜 유사한 개선 사항을 제공합니다. RT 코어는 모션 블러와 같은 것을 계산하는 데 유용한 시간 변수도 지원합니다. Nvidia는 3080의 새로운 RT 코어가 RTX 2080보다 1.7배 더 빠르며 모션 블러에 대해 최대 5배 더 빠를 수 있다고 말합니다.

다른 변경 사항도 많이 있습니다. L1 캐시/공유 메모리 용량 및 대역폭은 코어를 더 잘 공급할 수 있도록 증가했으며(8704KB 대 4416KB) L2 캐시도 이전보다 25% 커졌습니다(5120KB 대 4096KB). L1 캐시는 응용 프로그램의 요구 사항에 따라 다양한 양의 L1 대 공유 메모리로 구성할 수도 있습니다. 레지스터 파일 크기도 RTX 3080보다 거의 50% 더 큽니다(17408KB 대 11776KB). GA102는 RT + 그래픽 + DLSS도 동시에 수행할 수 있습니다(이전에는 RT 코어를 사용하면 CUDA 코어가 중지됨).

마지막으로 ROPS(래스터 연산자)가 메모리 컨트롤러에서 GPC로 옮겨졌습니다. 각 GPC에는 각각 8개의 ROP 단위로 구성된 2개의 ROP 파티션이 있습니다. 이는 성능에 더 많은 유연성을 제공하므로 GA102의 총 ROPS가 최대 112인 경우 RTX 3080은 2개의 메모리 컨트롤러를 비활성화하지만 GPC는 1개만 비활성화하고 결국 96 ROPS로 끝납니다. 이것은 RTX 3070 / GA104에 더 중요하지만 8개의 메모리 컨트롤러만 있음에도 불구하고 여전히 96 ROPS를 가지고 있습니다. 각 GPC에는 8개의 TMU(텍스처 매핑 단위)와 폴리모프 엔진이 있는 6개의 TPC(텍스처 처리 클러스터)도 포함되지만 Nvidia는 3080에 대해 34개의 TPC만 활성화합니다.

핵심 개선 사항은 제외하고 메모리 하위 시스템에 대해서도 빠르게 논의해 보겠습니다. GA102는 최대 12개의 32비트 메모리 채널을 지원하며 그 중 10개는 RTX 3080에서 활성화됩니다. Nvidia는 Micron과 협력하여 PAM4 신호를 사용하여 데이터 속도를 이전보다 훨씬 더 높이는 GDDR6X 메모리를 사용합니다. RTX 20 시리즈 카드가 2080 Super에서 15.5Gbps, 다른 RTX 카드에서 14Gbps인 반면 GDDR6X는 RTX 3080에서 19Gbps로 실행됩니다. 320비트 인터페이스와 결합하여 760GBps의 대역폭을 제공합니다. RTX 2080보다 70% 향상되었습니다.

RTX 3080의 메모리 컨트롤러도 개선되어 EDR: 오류 감지 및 재생이라는 새로운 기능이 추가되었습니다. 메모리가 실패한 전송을 감지하면 데이터가 충돌하거나 손상되지 않고 단순히 다시 시도합니다. 성공할 때까지 이 작업을 수행하지만 메모리 오버클럭으로 인해 여전히 충돌이 발생할 수 있습니다. 흥미로운 점은 EDR을 사용하면 더 높은 메모리 클럭을 달성할 수 있지만 여전히 성능이 저하된다는 것입니다. 전송 실패가 발생하면 EDR이 메모리 성능을 저하시키기 때문입니다. 오버클럭킹 섹션에서 이에 대해 더 이야기하겠습니다.

GeForce RTX 3080 파운더스 에디션: 디자인, 냉각, 미학

Nvidia는 RTX 30 시리즈용 Founders Edition 카드의 디자인을 근본적으로 변경했습니다. 새로운 디자인에는 여전히 2개의 축 팬이 포함되어 있지만 Nvidia는 PCB를 크게 재설계하고 카드의 ‘후면'(비디오 포트에서 떨어져 있음)이 팬, 히트파이프, 라디에이터 핀 및 일반 그래픽 카드로 구성되도록 단축했습니다. 측판. Nvidia는 새로운 디자인이 냉각 효율성을 크게 개선하는 동시에 소음 수준을 낮춘다고 말합니다. 디자인의 열매는 나중에 보자.

미학은 매우 주관적이며 새로운 디자인을 좋아하는 사람들이 많았고 지루해 보인다는 의견을 많이 들었습니다. 그것이 당신의 일이라면 RGB 블링이 없으며 유일한 조명은 카드 상단의 흰색 GeForce RTX 로고로 구성되며 카드 양쪽의 ‘X’ 주위에 미묘한 조명이 있습니다(그러나 ‘X’의 절반만 “RTX 3080” 로고가 있는 측면에 불이 들어옵니다.)

개인적으로 새 카드는 꽤 괜찮아 보이고 손에 착 감기는 느낌이 아주 좋습니다. 실제로 이전 RTX 2080 디자인보다 약 100g 더 무겁고 내가 아는 한 Nvidia가 만든 가장 무거운 단일 GPU 카드입니다. 또한 이전 세대 카드보다 약 2cm 더 길고 일반적인 2슬롯 너비를 사용합니다. (GeForce RTX 3090은 거대한 3슬롯 쿨러로 3080 FE를 보잘 것 없게 만들 준비가 되었습니다.)

Nvidia는 위의 RTX 3080 Founders Edition 분해 이미지를 제공했습니다. 우리는 아직 우리 카드를 분해할 준비가 되어 있지 않습니다. 솔직히 말해서, 우리는 시간이 없습니다. 하지만 곧 주제로 돌아갈 수 있습니다. Nvidia가 작은 덮개 뒤에 나사를 숨겼기 때문에 이번 라운드에서 카드를 분리하는 것이 조금 더 까다롭다고 들었습니다.

메인 보드는 중앙에서 GPU를 둘러싸고 있는 10개의 GDDR6X 메모리 칩과 함께 이전 GPU보다 훨씬 더 조밀하게 채워진 것처럼 보입니다. 또한 각진 12핀 전원 커넥터와 PCB 끝에 있는 펑키한 모양의 컷아웃도 볼 수 있습니다. 전력 공급은 320W TGP에서 분명히 중요하며 메모리 칩의 왼쪽과 오른쪽에 배치된 모든 고체 전해 커패시터를 볼 수 있습니다.

메모리 배열도 흥미롭습니다. GPU의 왼쪽과 오른쪽에 4개의 칩, GPU 위에 최대 3개의 칩(RTX 3080의 경우 두 개의 장착 위치가 비어 있음), GPU 아래에 마지막 단일 칩이 있습니다. 다시 말하지만, Nvidia는 새롭고 향상된 냉각 설계를 수용하기 위해 보드 및 기타 구성 요소의 크기를 줄이기 위해 많은 노력을 기울였습니다. 스포일러: 아주 잘 작동합니다.

한 가지 흥미로운 점은 ‘전면’ 팬(비디오 포트 근처)이 일반적인 방향인 시계 반대 방향으로 회전한다는 것입니다. ATX 케이스에 카드를 설치할 때 일반적으로 위쪽을 향하는 ‘후면’ 팬이 시계 방향으로 회전합니다. 지느러미를 보면 후면 팬이 일반적으로 예상하는 것과 반대 방향으로 회전한다는 의미입니다. 그 이유는 Nvidia가 이 배열이 라디에이터를 통해 공기를 더 잘 끌어당기고 소음을 덜 생성한다는 것을 발견했기 때문입니다. 또한 후면 팬은 약간 더 두껍고 통합 링은 RPM을 낮게 유지하면서 두 팬의 정압을 높이는 데 도움이 됩니다.

Founders Edition의 모양이 마음에 들지 않더라도 다른 옵션이 많이 있으므로 안심하십시오. 테스트를 위해 몇 가지 타사 RTX 3080 카드가 있으며 모두 자연스럽게 RGB 조명을 포함합니다. 타사 카드 중 어느 것도 12핀 전원 커넥터를 사용하지 않습니다. 필요한 어댑터가 카드와 함께 제공되기 때문에 중요하지 않습니다. 그러나 수직으로 장착된 12핀 포트는 정기적으로 GPU를 교체하는 경우 약간 덜 견고해 보입니다. 어댑터를 영구적으로 연결한 상태로 두고 일반 8핀 PEG 케이블을 연결하거나 분리할 계획입니다. 12핀 커넥터는 25개의 ‘사이클’로 평가되는 것으로 보이며 이미 그 중 절반을 소모했습니다(곧 고장날 것으로 예상하지는 않음).

Nvidia GeForce RTX 3080 파운더스 에디션 검토: 성능의 엄청난 세대 간 도약

을위한

에 맞서

GA102: 야수의 심장을 만나다

GeForce RTX 3080 파운더스 에디션: 디자인, 냉각, 미학

Related Posts

시스템 빌더 마라톤 2015년 4분기: 895달러 LAN 박스 PC

EVGA SuperNOVA 1000 P6 전원 공급 장치 검토

PlayStation 5 개봉 및 실습

PS5 첫 번째 게임 플레이: Astro의 플레이룸 및 DualSense를 사용한 실습