블랙웰 (마이크로아키텍처)
블랙웰(Blackwell)은 엔비디아에서 호퍼 및 에이다 러브레이스 마이크로아키텍처의 후속으로 개발한 그래픽 처리 장치(GPU) 마이크로아키텍처이다.
통계학자이자 수학자인 데이비드 블랙웰의 이름을 딴 블랙웰 아키텍처의 이름은 2022년에 B40 및 B100 액셀러레이터와 함께 유출되었고 2023년 10월 투자자 발표 중 공식 엔비디아 로드맵에 의해 확인되었다.[1] 2024년 3월 18일 엔비디아 GTC 2024 기조연설에서 공식적으로 발표되었다.[2]
역사
[편집]
2022년 3월, 엔비디아는 AI 가속기를 위한 호퍼 데이터센터 아키텍처를 발표했다. 호퍼 제품에 대한 수요는 2023년 AI 열풍 내내 높았다.[3] H100 기반 서버의 주문부터 납품까지의 리드 타임은 부족과 높은 수요로 인해 36주에서 52주 사이였다.[4] 엔비디아는 2023년 3분기에만 호퍼 기반 H100 가속기 50만 대를 판매한 것으로 알려졌다.[4] 호퍼 제품으로 AI 시장을 장악한 엔비디아는 시가총액을 2조 달러 이상으로 늘려 마이크로소프트와 애플에 이어 3위를 차지했다.[5]
블랙웰 아키텍처는 게임 이론, 확률론, 정보 이론 및 통계학 분야에 기여한 것으로 알려진 미국 수학자 데이비드 블랙웰의 이름을 따서 명명되었다. 이 분야들은 변환기 기반 생성형 AI 모델 설계 또는 해당 학습 알고리즘에 영향을 주거나 구현되었다. 블랙웰은 아프리카계 미국인 학자 최초로 미국국립과학원에 입회한 인물이었다.[6]
엔비디아의 2023년 10월 투자자 발표에서 데이터센터 로드맵은 B100 및 B40 가속기와 블랙웰 아키텍처를 포함하도록 업데이트되었다.[7][8] 이전에는 호퍼의 후속 제품이 로드맵에 단순히 "Hopper-Next"로 표시되었다. 엔비디아의 업데이트된 로드맵은 데이터센터 제품의 2년 출시 주기를 x86 및 ARM 시스템을 대상으로 한 연간 출시로 전환하는 것을 강조했다.
2024년 3월 18일 그래픽 기술 컨퍼런스(GTC)에서 엔비디아는 블랙웰 아키텍처를 공식적으로 발표했으며, B100 및 B200 데이터센터 가속기와 관련 제품(예: 8-GPU HGX B200 보드 및 72-GPU NVL72 랙 스케일 시스템)에 중점을 두었다.[9] 엔비디아 CEO 젠슨 황은 블랙웰을 통해 "우리는 생성형 AI 시대를 위한 프로세서를 만들었다"고 말했으며, 블랙웰 가속기와 엔비디아의 ARM 기반 그레이스 CPU를 결합한 전반적인 블랙웰 플랫폼을 강조했다.[10][11] 엔비디아는 구글, 메타, 마이크로소프트, OpenAI 및 오라클 CEO들의 블랙웰 지지 선언을 홍보했다.[11] 기조연설에서는 게이밍에 대한 언급은 없었다.
2024년 10월 블랙웰 아키텍처에 TSMC와 협력하여 수정된 설계 결함이 있었다는 보도가 나왔다.[12] 황 CEO에 따르면, 설계 결함은 "기능적"이었으며 "수율을 낮추는 원인"이 되었다.[13] 2024년 11월까지 모건 스탠리는 블랙웰 실리콘의 "2025년 전체 생산량"이 "이미 매진되었다"고 보도했다.[14]
회사의 CES 2025 기조연설에서 엔비디아는 블랙웰의 기반 모델에 블랙 포레스트 랩스(플럭스), 메타 AI, 미스트랄 AI, 스테빌리티 AI의 모델이 포함될 것이라고 발표했다.[15]
아키텍처
[편집]블랙웰은 데이터센터 컴퓨팅 애플리케이션과 게이밍 및 워크스테이션 애플리케이션 모두를 위해 설계된 아키텍처로, 각 목적에 맞는 전용 다이를 갖추고 있다.
공정 노드
[편집]블랙웰은 TSMC의 데이터센터 제품용 맞춤형 4NP 공정 노드와 소비자 제품용 맞춤형 4N 공정 노드에서 제조된다. 4NP는 호퍼 및 에이다 러브레이스 아키텍처에 사용된 4N 노드의 향상된 버전이다. 엔비디아 전용 4NP 공정은 표준 TSMC N4P 기술에 금속 레이어를 추가했을 가능성이 높다.[16] GB100 다이는 1,040억 개의 트랜지스터를 포함하며, 이전 세대 호퍼 GH100 다이의 800억 개 트랜지스터보다 30% 증가했다.[17] 블랙웰은 주요 공정 노드 발전으로 인한 이점을 얻을 수 없기 때문에 근본적인 아키텍처 변경을 통해 전력 효율성과 성능 향상을 달성해야 한다.[18]
GB100 다이는 반도체 제조의 리티클 한계에 도달했다.[19] 반도체 제조에서 리티클 한계는 리소그래피 기계가 실리콘 다이에 새길 수 있는 최대 특징 크기이다. 이전에는 엔비디아가 GH100의 814 mm2 다이로 TSMC의 리티클 한계에 거의 도달했었다. 다이 크기에 제약을 받지 않기 위해 엔비디아의 B100 가속기는 단일 패키지에 10TB/s 링크로 연결된 두 개의 GB100 다이를 사용하며, 엔비디아는 이를 NV-고대역 인터페이스(NV-HBI)라고 부른다. NV-HBI는 NVLink 7 프로토콜을 기반으로 한다. 엔비디아 CEO 젠슨 황은 CNBC와의 인터뷰에서 엔비디아가 블랙웰의 NV-HBI 다이 상호 연결을 위해 약 100억 달러의 연구개발 비용을 지출했다고 주장했다. AMD의 K7, K12 및 젠 아키텍처에 참여했던 베테랑 반도체 엔지니어 짐 켈러는 이 수치를 비판하며, 독점 NVLink 시스템 대신 울트라 이더넷을 사용하면 10억 달러로 동일한 결과를 얻을 수 있었을 것이라고 주장했다.[20] 연결된 두 개의 GB100 다이는 완전한 캐시 일관성을 갖춘 대형 단일 실리콘처럼 작동할 수 있다.[21] 듀얼 다이 패키지의 총 트랜지스터 수는 2,080억 개이다.[19] 이 두 개의 GB100 다이는 TSMC의 CoWoS-L 2.5D 패키징 기술을 사용하여 생산된 실리콘 인터포저 위에 배치된다.[22]
소비자 측면에서 블랙웰의 가장 큰 다이인 GB202는 750mm2로, 에이다 러브레이스의 가장 큰 다이인 AD102보다 20% 더 크다.[23] GB202는 총 24,576개의 CUDA 코어를 포함하며, AD102의 18,432개 CUDA 코어보다 28.5% 더 많다. GB202는 튜링 마이크로아키텍처를 기반으로 2018년에 출시된 754mm2 TU102 다이 이후 엔비디아가 설계한 가장 큰 소비자 다이이다. GB202와 GB203 사이의 간격도 이전 세대에 비해 훨씬 넓어졌다. GB202는 GB203보다 두 배 이상 많은 CUDA 코어를 특징으로 하는데, 이는 AD102가 AD103에 비해 그렇지 않았던 것과 다르다.
스트리밍 멀티프로세서
[편집]CUDA 코어
[편집]블랙웰에는 CUDA 컴퓨트 기능 10.0 및 컴퓨트 기능 12.0이 추가되었다.[24]
텐서 코어
[편집]블랙웰 아키텍처는 AI 컴퓨팅 및 부동소수점 계산을 위한 5세대 텐서 코어를 도입했다. 데이터센터에서 블랙웰은 새로운 OCP(Open Compute Project) 커뮤니티에서 정의한 MXFP6 및 MXFP4 미세 스케일링 형식을 포함한 8비트 미만 데이터 유형에 대한 기본 지원을 추가하여 저정밀 계산의 효율성과 정확도를 향상시킨다.[25][26][27][28][29] 이전 호퍼 아키텍처는 트랜스포머 엔진을 도입하여 고정밀 모델(예: FP32)을 저정밀 모델로 양자화하는 것을 용이하게 하는 소프트웨어로, 호퍼는 더 높은 처리량을 갖는다. 블랙웰의 2세대 트랜스포머 엔진은 MXFP4 및 MXFP6 지원을 추가한다. 4비트 데이터를 사용하면 생성형 AI 학습 중 모델 추론의 효율성과 처리량이 향상된다. 엔비디아는 듀얼 GPU GB200 슈퍼칩에 대해 20페타플롭스(엔비디아가 희소성에 대해 주장하는 2배의 이득은 제외)의 FP4 컴퓨팅 성능을 주장한다.[30]
블랙웰 다이
[편집]데이터센터
다이 | GB100 | GB102 | GB200 | |
---|---|---|---|---|
변형 | 알 수 없음 | 알 수 없음 | 알 수 없음 | |
출시일 | 2024년 12월 | 2024년 11월 | 알 수 없음 | |
코어 | CUDA 코어 | 18,432 | ||
TMU | 576 | |||
ROP | 24 | |||
RT 코어 | 알 수 없음 | 알 수 없음 | 알 수 없음 | |
텐서 코어 | 576 | |||
스트리밍 멀티프로세서 | 알 수 없음 | 알 수 없음 | 알 수 없음 | |
캐시 | L1 | 8.25 MB | ||
L2 | 60 MB | |||
메모리 인터페이스 | 8192-bit | |||
다이 크기 | 알 수 없음 | 알 수 없음 | 알 수 없음 | |
트랜지스터 수 | 104 억 | |||
트랜지스터 밀도 | 알 수 없음 | 알 수 없음 | 알 수 없음 | |
패키지 소켓 | SXM6 | |||
제품 | B200 SXM 192GB | B100 | 알 수 없음 |
컨슈머
다이 | GB202 | GB203 | GB205 | GB206 | GB207 | |
---|---|---|---|---|---|---|
변형 | GB202-300-A1 | GB203-200-A1 GB203-300-A1 GB203-400-A1 |
GB205-300-A1 | GB206-250-A1 GB206-300-A1 |
알 수 없음 | |
출시일 | 2025년 1월 30일 | 2025년 1월 30일 | 2025년 4월 | 2025년 3월 | 발표 예정 | |
코어 | CUDA 코어 | 24,576 | 10,752 | 6,400 | 4,608 | 2,560 |
TMU | 768 | 336 | 200 | 144 | 80 | |
ROP | 192 | 112 | 80 | 48 | 32 | |
RT 코어 | 192 | 84 | 50 | 36 | 20 | |
텐서 코어 | 768 | 336 | 200 | 144 | 80 | |
SMs | 192 | 84 | 50 | 36 | 20 | |
GPC | 12 | 7 | 5 | 3 | 2 | |
캐시 | L1 | 24 MB | 10.5 MB | 6.25 MB | 4.5 MB | 2.5 MB |
L2 | 128 MB | 64 MB | 48 MB | 32 MB | 32 MB | |
메모리 인터페이스 | 512-bit | 256-bit | 192-bit | 128-bit | 128-bit | |
다이 크기 | 750 mm2 | 378 mm2 | 263 mm2 | 181 mm2 | 알 수 없음 | |
트랜지스터 수 | 92.2 억 | 45.6 억 | 31.1 억 | 21.9억 | 알 수 없음 | |
트랜지스터 밀도 | 122.6 MTr/mm2 | 120.6 MTr/mm2 | 118.3 MTr/mm2 | 121.0 MTr/mm2 | 알 수 없음 | |
제품 | ||||||
컨슈머 | 데스크톱 | RTX 5090 RTX 5090 D |
RTX 5070 Ti RTX 5080 |
RTX 5070 | RTX 5060 RTX 5060 Ti |
|
모바일 | 빈칸 | RTX 5080 노트북 RTX 5090 노트북 |
RTX 5070 Ti 노트북 | RTX 5060 노트북 RTX 5070 노트북 |
||
워크스테이션 | 데스크톱 | RTX PRO 5000 RTX PRO 6000 |
RTX PRO 4000 RTX PRO 4500 |
|||
모바일 | 빈칸 | RTX PRO 4000 모바일 RTX PRO 5000 모바일 |
RTX PRO 3000 모바일 | RTX PRO 2000 모바일 | RTX PRO 500 모바일 RTX PRO 1000 모바일 | |
서버 | RTX PRO 6000 |
같이 보기
[편집]각주
[편집]- ↑ “Nvidia Corporation - Nvidia Investor Presentation October 2023”. 《Nvidia》 (미국 영어). 2024년 3월 19일에 확인함.
- ↑ “Nvidia Blackwell Platform Arrives to Power a New Era of Computing”. 《Nvidia Newsroom》 (미국 영어). 2024년 3월 19일에 확인함.
- ↑ Szewczyk, Chris (2023년 8월 18일). “The AI hype means Nvidia is making shiploads of cash”. 《Tom's Hardware》 (미국 영어). 2024년 3월 24일에 확인함.
- ↑ 가 나 Shilov, Anton (2023년 11월 28일). “Nvidia sold half a million H100 AI GPUs in Q3 thanks to Meta, Facebook — lead times stretch up to 52 weeks: Report”. 《Tom's Hardware》 (미국 영어). 2024년 3월 24일에 확인함.
- ↑ King, Ian (2024년 3월 19일). “Nvidia Looks to Extend AI Dominance With New Blackwell Chips”. 《Yahoo! Finance》 (영국 영어). 2024년 3월 24일에 확인함.
- ↑ Lee, Jane Lanhee (2024년 3월 19일). “Why Nvidia's New Blackwell Chip Is Key to the Next Stage of AI”. 《Bloomberg》 (영국 영어). 2024년 3월 24일에 확인함.
- ↑ “Investor Presentation” (PDF). 《Nvidia》 (미국 영어). October 2023. 2024년 3월 24일에 확인함.
- ↑ Garreffa, Anthony (2023년 10월 10일). “Nvidia's next-gen GB200 'Blackwell' GPU listed on its 2024 data center roadmap”. 《TweakTown》 (미국 영어). 2024년 3월 24일에 확인함.
- ↑ “Nvidia GB200 NVL72”. 《Nvidia》 (미국 영어). 2024년 7월 4일에 확인함.
- ↑ Leswing, Kif (2024년 3월 18일). “Nvidia CEO Jensen Huang announces new AI chips: 'We need bigger GPUs'”. 《CNBC》 (미국 영어). 2024년 3월 24일에 확인함.
- ↑ 가 나 Caulfield, Brian (2024년 3월 18일). “'We Created a Processor for the Generative AI Era,' Nvidia CEO Says”. 《Nvidia》 (미국 영어). 2024년 3월 24일에 확인함.
- ↑ Gronholt-Pedersen, Jacob; Mukherjee, Supantha (2024년 10월 23일). “Nvidia's design flaw with Blackwell AI chips now fixed, CEO says”. 《Reuters》 (미국 영어). 2024년 12월 17일에 확인함.
- ↑ Shilov, Anton (2024년 10월 23일). “Nvidia's Jensen Huang admits AI chip design flaw was '100% Nvidia's fault' — TSMC not to blame, now-fixed Blackwell chips are in production”. 《Tom's Hardware》 (미국 영어). 2024년 12월 17일에 확인함.
- ↑ Kahn, Jeremy (2024년 11월 12일). “60 direct reports, but no 1-on-1 meetings: How an unconventional leadership style helped Jensen Huang of Nvidia become one of the most powerful people in business”. 《Fortune》. 2024년 11월 16일에 확인함.
- ↑ Takahashi, Dean (2025년 1월 7일). “Nvidia unveils AI foundation models running on RTX AI PCs”. 《VentureBeat》 (미국 영어). 2025년 1월 19일에 확인함.
- ↑ Byrne, Joseph (2024년 3월 28일). “Monster Nvidia Blackwell GPU Promises 30× Speedup, but Expect 3×”. 《XPU.pub》 (미국 영어). 2024년 7월 4일에 확인함.
- ↑ Smith, Ryan (2024년 3월 18일). “Nvidia Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data”. 《AnandTech》 (미국 영어). 2024년 3월 24일에 확인함.
- ↑ Prickett Morgan, Timothy (2024년 3월 18일). “With Blackwell GPUs, AI Gets Cheaper and Easier, Competing with Nvidia Gets Harder”. 《The Next Platform》 (미국 영어). 2024년 3월 24일에 확인함.
- ↑ 가 나 “Nvidia Blackwell Platform Arrives to Power a New Era of Computing”. 《Nvidia Newsroom》 (미국 영어). 2024년 3월 18일. 2024년 3월 24일에 확인함.
- ↑ Garreffa, Anthony (2024년 4월 14일). “Jim Keller laughs at $10B R&D cost for Nvidia Blackwell, should've used ethernet for $1B”. 《TweakTown》 (미국 영어). 2024년 4월 16일에 확인함.
- ↑ Hagedoom, Hilbert (2024년 3월 18일). “Nvidia B200 and GB200 AI GPUs Technical Overview: Unveiled at GTC 2024”. 《Guru3D》 (미국 영어). 2024년 4월 7일에 확인함.
- ↑ “Nvidia Blackwell "B100" to feature 2 dies and 192GB of HBM3e memory, B200 with 288GB”. 《VideoCardz》 (미국 영어). 2024년 3월 17일. 2024년 3월 24일에 확인함.
- ↑ “Nvidia GeForce RTX 5090 GB202 GPU die reportedly measures 744 mm2, 20% larger than AD102”. 《VideoCardz》 (미국 영어). 2024년 11월 22일. 2025년 1월 7일에 확인함.
- ↑ “CUDA C Programming Guide”. 《Nvidia》. 2025년 1월 28일에 확인함.
- ↑ Edwards, Benj (2024년 3월 18일). “Nvidia unveils Blackwell B200, the "world's most powerful chip" designed for AI”. 《Ars Technica》 (미국 영어). 2024년 3월 24일에 확인함.
- ↑ “Blackwell Architecture”. 《Nvidia》 (미국 영어). 2025년 2월 5일에 확인함.
- ↑ Rouhani, Bita Darvish; Zhao, Ritchie; More, Ankit; Hall, Mathew; Khodamoradi, Alireza; Deng, Summer; Choudhary, Dhruv; Cornea, Marius; Dellinger, Eric; Denolf, Kristof (2023). “Microscaling Data Formats for Deep Learning”. arXiv:2310.10537.
- ↑ “OCP Microscaling Formats (MX) v1.0 Specification”. 《Open Compute Project》. Open Compute Project. 2024. 2025년 2월 5일에 확인함.
- ↑ “OpenAI Triton on NVIDIA Blackwell Boosts AI Performance and Programmability”. 《NVIDIA Developer Blog》. NVIDIA. 2024. 2025년 2월 5일에 확인함.
- ↑ “Nvidia GB200 NVL72”. 《Nvidia》 (미국 영어). 2024년 7월 4일에 확인함.