본문으로 이동

블랙웰 (마이크로아키텍처)

위키백과, 우리 모두의 백과사전.

블랙웰(Blackwell)은 엔비디아에서 호퍼에이다 러브레이스 마이크로아키텍처의 후속으로 개발한 그래픽 처리 장치(GPU) 마이크로아키텍처이다.

통계학자이자 수학자인 데이비드 블랙웰의 이름을 딴 블랙웰 아키텍처의 이름은 2022년에 B40 및 B100 액셀러레이터와 함께 유출되었고 2023년 10월 투자자 발표 중 공식 엔비디아 로드맵에 의해 확인되었다.[1] 2024년 3월 18일 엔비디아 GTC 2024 기조연설에서 공식적으로 발표되었다.[2]

역사

[편집]
데이비드 블랙웰 (1919–2010)

2022년 3월, 엔비디아는 AI 가속기를 위한 호퍼 데이터센터 아키텍처를 발표했다. 호퍼 제품에 대한 수요는 2023년 AI 열풍 내내 높았다.[3] H100 기반 서버의 주문부터 납품까지의 리드 타임은 부족과 높은 수요로 인해 36주에서 52주 사이였다.[4] 엔비디아는 2023년 3분기에만 호퍼 기반 H100 가속기 50만 대를 판매한 것으로 알려졌다.[4] 호퍼 제품으로 AI 시장을 장악한 엔비디아는 시가총액을 2조 달러 이상으로 늘려 마이크로소프트애플에 이어 3위를 차지했다.[5]

블랙웰 아키텍처는 게임 이론, 확률론, 정보 이론 및 통계학 분야에 기여한 것으로 알려진 미국 수학자 데이비드 블랙웰의 이름을 따서 명명되었다. 이 분야들은 변환기 기반 생성형 AI 모델 설계 또는 해당 학습 알고리즘에 영향을 주거나 구현되었다. 블랙웰은 아프리카계 미국인 학자 최초로 미국국립과학원에 입회한 인물이었다.[6]

엔비디아의 2023년 10월 투자자 발표에서 데이터센터 로드맵은 B100 및 B40 가속기와 블랙웰 아키텍처를 포함하도록 업데이트되었다.[7][8] 이전에는 호퍼의 후속 제품이 로드맵에 단순히 "Hopper-Next"로 표시되었다. 엔비디아의 업데이트된 로드맵은 데이터센터 제품의 2년 출시 주기를 x86ARM 시스템을 대상으로 한 연간 출시로 전환하는 것을 강조했다.

2024년 3월 18일 그래픽 기술 컨퍼런스(GTC)에서 엔비디아는 블랙웰 아키텍처를 공식적으로 발표했으며, B100 및 B200 데이터센터 가속기와 관련 제품(예: 8-GPU HGX B200 보드 및 72-GPU NVL72 랙 스케일 시스템)에 중점을 두었다.[9] 엔비디아 CEO 젠슨 황은 블랙웰을 통해 "우리는 생성형 AI 시대를 위한 프로세서를 만들었다"고 말했으며, 블랙웰 가속기와 엔비디아의 ARM 기반 그레이스 CPU를 결합한 전반적인 블랙웰 플랫폼을 강조했다.[10][11] 엔비디아는 구글, 메타, 마이크로소프트, OpenAI오라클 CEO들의 블랙웰 지지 선언을 홍보했다.[11] 기조연설에서는 게이밍에 대한 언급은 없었다.

2024년 10월 블랙웰 아키텍처에 TSMC와 협력하여 수정된 설계 결함이 있었다는 보도가 나왔다.[12] 황 CEO에 따르면, 설계 결함은 "기능적"이었으며 "수율을 낮추는 원인"이 되었다.[13] 2024년 11월까지 모건 스탠리는 블랙웰 실리콘의 "2025년 전체 생산량"이 "이미 매진되었다"고 보도했다.[14]

회사의 CES 2025 기조연설에서 엔비디아는 블랙웰의 기반 모델에 블랙 포레스트 랩스(플럭스), 메타 AI, 미스트랄 AI, 스테빌리티 AI의 모델이 포함될 것이라고 발표했다.[15]

아키텍처

[편집]

블랙웰은 데이터센터 컴퓨팅 애플리케이션과 게이밍 및 워크스테이션 애플리케이션 모두를 위해 설계된 아키텍처로, 각 목적에 맞는 전용 다이를 갖추고 있다.

공정 노드

[편집]

블랙웰은 TSMC의 데이터센터 제품용 맞춤형 4NP 공정 노드와 소비자 제품용 맞춤형 4N 공정 노드에서 제조된다. 4NP는 호퍼 및 에이다 러브레이스 아키텍처에 사용된 4N 노드의 향상된 버전이다. 엔비디아 전용 4NP 공정은 표준 TSMC N4P 기술에 금속 레이어를 추가했을 가능성이 높다.[16] GB100 다이는 1,040억 개의 트랜지스터를 포함하며, 이전 세대 호퍼 GH100 다이의 800억 개 트랜지스터보다 30% 증가했다.[17] 블랙웰은 주요 공정 노드 발전으로 인한 이점을 얻을 수 없기 때문에 근본적인 아키텍처 변경을 통해 전력 효율성과 성능 향상을 달성해야 한다.[18]

GB100 다이는 반도체 제조의 리티클 한계에 도달했다.[19] 반도체 제조에서 리티클 한계는 리소그래피 기계가 실리콘 다이에 새길 수 있는 최대 특징 크기이다. 이전에는 엔비디아가 GH100의 814 mm2 다이로 TSMC의 리티클 한계에 거의 도달했었다. 다이 크기에 제약을 받지 않기 위해 엔비디아의 B100 가속기는 단일 패키지에 10TB/s 링크로 연결된 두 개의 GB100 다이를 사용하며, 엔비디아는 이를 NV-고대역 인터페이스(NV-HBI)라고 부른다. NV-HBI는 NVLink 7 프로토콜을 기반으로 한다. 엔비디아 CEO 젠슨 황은 CNBC와의 인터뷰에서 엔비디아가 블랙웰의 NV-HBI 다이 상호 연결을 위해 약 100억 달러의 연구개발 비용을 지출했다고 주장했다. AMD의 K7, K12 아키텍처에 참여했던 베테랑 반도체 엔지니어 짐 켈러는 이 수치를 비판하며, 독점 NVLink 시스템 대신 울트라 이더넷을 사용하면 10억 달러로 동일한 결과를 얻을 수 있었을 것이라고 주장했다.[20] 연결된 두 개의 GB100 다이는 완전한 캐시 일관성을 갖춘 대형 단일 실리콘처럼 작동할 수 있다.[21] 듀얼 다이 패키지의 총 트랜지스터 수는 2,080억 개이다.[19] 이 두 개의 GB100 다이는 TSMC의 CoWoS-L 2.5D 패키징 기술을 사용하여 생산된 실리콘 인터포저 위에 배치된다.[22]

소비자 측면에서 블랙웰의 가장 큰 다이인 GB202는 750mm2로, 에이다 러브레이스의 가장 큰 다이인 AD102보다 20% 더 크다.[23] GB202는 총 24,576개의 CUDA 코어를 포함하며, AD102의 18,432개 CUDA 코어보다 28.5% 더 많다. GB202는 튜링 마이크로아키텍처를 기반으로 2018년에 출시된 754mm2 TU102 다이 이후 엔비디아가 설계한 가장 큰 소비자 다이이다. GB202와 GB203 사이의 간격도 이전 세대에 비해 훨씬 넓어졌다. GB202는 GB203보다 두 배 이상 많은 CUDA 코어를 특징으로 하는데, 이는 AD102가 AD103에 비해 그렇지 않았던 것과 다르다.

스트리밍 멀티프로세서

[편집]

CUDA 코어

[편집]

블랙웰에는 CUDA 컴퓨트 기능 10.0 및 컴퓨트 기능 12.0이 추가되었다.[24]

텐서 코어

[편집]

블랙웰 아키텍처는 AI 컴퓨팅 및 부동소수점 계산을 위한 5세대 텐서 코어를 도입했다. 데이터센터에서 블랙웰은 새로운 OCP(Open Compute Project) 커뮤니티에서 정의한 MXFP6 및 MXFP4 미세 스케일링 형식을 포함한 8비트 미만 데이터 유형에 대한 기본 지원을 추가하여 저정밀 계산의 효율성과 정확도를 향상시킨다.[25][26][27][28][29] 이전 호퍼 아키텍처는 트랜스포머 엔진을 도입하여 고정밀 모델(예: FP32)을 저정밀 모델로 양자화하는 것을 용이하게 하는 소프트웨어로, 호퍼는 더 높은 처리량을 갖는다. 블랙웰의 2세대 트랜스포머 엔진은 MXFP4 및 MXFP6 지원을 추가한다. 4비트 데이터를 사용하면 생성형 AI 학습 중 모델 추론의 효율성과 처리량이 향상된다. 엔비디아는 듀얼 GPU GB200 슈퍼칩에 대해 20페타플롭스(엔비디아가 희소성에 대해 주장하는 2배의 이득은 제외)의 FP4 컴퓨팅 성능을 주장한다.[30]

블랙웰 다이

[편집]

데이터센터

다이 GB100 GB102 GB200
변형 알 수 없음 알 수 없음 알 수 없음
출시일 2024년 12월 2024년 11월 알 수 없음
코어 CUDA 코어 18,432
TMU 576
ROP 24
RT 코어 알 수 없음 알 수 없음 알 수 없음
텐서 코어 576
스트리밍 멀티프로세서 알 수 없음 알 수 없음 알 수 없음
캐시 L1 8.25 MB
L2 60 MB
메모리 인터페이스 8192-bit
다이 크기 알 수 없음 알 수 없음 알 수 없음
트랜지스터 수 104 
트랜지스터 밀도 알 수 없음 알 수 없음 알 수 없음
패키지 소켓 SXM6
제품 B200 SXM 192GB B100 알 수 없음

컨슈머

다이 GB202 GB203 GB205 GB206 GB207
변형 GB202-300-A1 GB203-200-A1
GB203-300-A1
GB203-400-A1
GB205-300-A1 GB206-250-A1
GB206-300-A1
알 수 없음
출시일 2025년 1월 30일 2025년 1월 30일 2025년 4월 2025년 3월 발표 예정
코어 CUDA 코어 24,576 10,752 6,400 4,608 2,560
TMU 768 336 200 144 80
ROP 192 112 80 48 32
RT 코어 192 84 50 36 20
텐서 코어 768 336 200 144 80
SMs 192 84 50 36 20
GPC 12 7 5 3 2
캐시 L1 24 MB 10.5 MB 6.25 MB 4.5 MB 2.5 MB
L2 128 MB 64 MB 48 MB 32 MB 32 MB
메모리 인터페이스 512-bit 256-bit 192-bit 128-bit 128-bit
다이 크기 750 mm2 378 mm2 263 mm2 181 mm2 알 수 없음
트랜지스터 수 92.2  45.6  31.1  21.9억 알 수 없음
트랜지스터 밀도 122.6 MTr/mm2 120.6 MTr/mm2 118.3 MTr/mm2 121.0 MTr/mm2 알 수 없음
제품
컨슈머 데스크톱 RTX 5090
RTX 5090 D
RTX 5070 Ti
RTX 5080   
RTX 5070 RTX 5060
RTX 5060 Ti
모바일 빈칸 RTX 5080 노트북
RTX 5090 노트북
RTX 5070 Ti 노트북 RTX 5060 노트북
RTX 5070 노트북
워크스테이션 데스크톱 RTX PRO 5000
RTX PRO 6000
RTX PRO 4000
RTX PRO 4500
모바일 빈칸 RTX PRO 4000 모바일
RTX PRO 5000 모바일
RTX PRO 3000 모바일 RTX PRO 2000 모바일 RTX PRO 500 모바일
RTX PRO 1000 모바일
서버 RTX PRO 6000

같이 보기

[편집]

각주

[편집]
  1. “Nvidia Corporation - Nvidia Investor Presentation October 2023”. 《Nvidia》 (미국 영어). 2024년 3월 19일에 확인함. 
  2. “Nvidia Blackwell Platform Arrives to Power a New Era of Computing”. 《Nvidia Newsroom》 (미국 영어). 2024년 3월 19일에 확인함. 
  3. Szewczyk, Chris (2023년 8월 18일). “The AI hype means Nvidia is making shiploads of cash”. 《Tom's Hardware》 (미국 영어). 2024년 3월 24일에 확인함. 
  4. Shilov, Anton (2023년 11월 28일). “Nvidia sold half a million H100 AI GPUs in Q3 thanks to Meta, Facebook — lead times stretch up to 52 weeks: Report”. 《Tom's Hardware》 (미국 영어). 2024년 3월 24일에 확인함. 
  5. King, Ian (2024년 3월 19일). “Nvidia Looks to Extend AI Dominance With New Blackwell Chips”. 《Yahoo! Finance》 (영국 영어). 2024년 3월 24일에 확인함. 
  6. Lee, Jane Lanhee (2024년 3월 19일). “Why Nvidia's New Blackwell Chip Is Key to the Next Stage of AI”. 《Bloomberg》 (영국 영어). 2024년 3월 24일에 확인함. 
  7. “Investor Presentation” (PDF). 《Nvidia》 (미국 영어). October 2023. 2024년 3월 24일에 확인함. 
  8. Garreffa, Anthony (2023년 10월 10일). “Nvidia's next-gen GB200 'Blackwell' GPU listed on its 2024 data center roadmap”. 《TweakTown》 (미국 영어). 2024년 3월 24일에 확인함. 
  9. “Nvidia GB200 NVL72”. 《Nvidia》 (미국 영어). 2024년 7월 4일에 확인함. 
  10. Leswing, Kif (2024년 3월 18일). “Nvidia CEO Jensen Huang announces new AI chips: 'We need bigger GPUs'. 《CNBC》 (미국 영어). 2024년 3월 24일에 확인함. 
  11. Caulfield, Brian (2024년 3월 18일). 'We Created a Processor for the Generative AI Era,' Nvidia CEO Says”. 《Nvidia》 (미국 영어). 2024년 3월 24일에 확인함. 
  12. Gronholt-Pedersen, Jacob; Mukherjee, Supantha (2024년 10월 23일). “Nvidia's design flaw with Blackwell AI chips now fixed, CEO says”. 《Reuters》 (미국 영어). 2024년 12월 17일에 확인함. 
  13. Shilov, Anton (2024년 10월 23일). “Nvidia's Jensen Huang admits AI chip design flaw was '100% Nvidia's fault' — TSMC not to blame, now-fixed Blackwell chips are in production”. 《Tom's Hardware》 (미국 영어). 2024년 12월 17일에 확인함. 
  14. Kahn, Jeremy (2024년 11월 12일). “60 direct reports, but no 1-on-1 meetings: How an unconventional leadership style helped Jensen Huang of Nvidia become one of the most powerful people in business”. 《Fortune》. 2024년 11월 16일에 확인함. 
  15. Takahashi, Dean (2025년 1월 7일). “Nvidia unveils AI foundation models running on RTX AI PCs”. 《VentureBeat》 (미국 영어). 2025년 1월 19일에 확인함. 
  16. Byrne, Joseph (2024년 3월 28일). “Monster Nvidia Blackwell GPU Promises 30× Speedup, but Expect 3×”. 《XPU.pub》 (미국 영어). 2024년 7월 4일에 확인함. 
  17. Smith, Ryan (2024년 3월 18일). “Nvidia Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data”. 《AnandTech》 (미국 영어). 2024년 3월 24일에 확인함. 
  18. Prickett Morgan, Timothy (2024년 3월 18일). “With Blackwell GPUs, AI Gets Cheaper and Easier, Competing with Nvidia Gets Harder”. 《The Next Platform》 (미국 영어). 2024년 3월 24일에 확인함. 
  19. “Nvidia Blackwell Platform Arrives to Power a New Era of Computing”. 《Nvidia Newsroom》 (미국 영어). 2024년 3월 18일. 2024년 3월 24일에 확인함. 
  20. Garreffa, Anthony (2024년 4월 14일). “Jim Keller laughs at $10B R&D cost for Nvidia Blackwell, should've used ethernet for $1B”. 《TweakTown》 (미국 영어). 2024년 4월 16일에 확인함. 
  21. Hagedoom, Hilbert (2024년 3월 18일). “Nvidia B200 and GB200 AI GPUs Technical Overview: Unveiled at GTC 2024”. 《Guru3D》 (미국 영어). 2024년 4월 7일에 확인함. 
  22. “Nvidia Blackwell "B100" to feature 2 dies and 192GB of HBM3e memory, B200 with 288GB”. 《VideoCardz》 (미국 영어). 2024년 3월 17일. 2024년 3월 24일에 확인함. 
  23. “Nvidia GeForce RTX 5090 GB202 GPU die reportedly measures 744 mm2, 20% larger than AD102”. 《VideoCardz》 (미국 영어). 2024년 11월 22일. 2025년 1월 7일에 확인함. 
  24. “CUDA C Programming Guide”. 《Nvidia》. 2025년 1월 28일에 확인함. 
  25. Edwards, Benj (2024년 3월 18일). “Nvidia unveils Blackwell B200, the "world's most powerful chip" designed for AI”. 《Ars Technica》 (미국 영어). 2024년 3월 24일에 확인함. 
  26. “Blackwell Architecture”. 《Nvidia》 (미국 영어). 2025년 2월 5일에 확인함. 
  27. Rouhani, Bita Darvish; Zhao, Ritchie; More, Ankit; Hall, Mathew; Khodamoradi, Alireza; Deng, Summer; Choudhary, Dhruv; Cornea, Marius; Dellinger, Eric; Denolf, Kristof (2023). “Microscaling Data Formats for Deep Learning”. arXiv:2310.10537. 
  28. “OCP Microscaling Formats (MX) v1.0 Specification”. 《Open Compute Project》. Open Compute Project. 2024. 2025년 2월 5일에 확인함. 
  29. “OpenAI Triton on NVIDIA Blackwell Boosts AI Performance and Programmability”. 《NVIDIA Developer Blog》. NVIDIA. 2024. 2025년 2월 5일에 확인함. 
  30. “Nvidia GB200 NVL72”. 《Nvidia》 (미국 영어). 2024년 7월 4일에 확인함.