CDNA (마이크로아키텍처)

AMD CDNA 2
출시일	2021년 11월 8일; (3년 전)
제조 공정	TSMC N6
역사
이전	CDNA 1
다음	CDNA 3

AMD CDNA 1
출시일	2020년 11월 16일; (4년 전)
제조 공정	TSMC N7 (핀펫)
역사
이전	AMD FirePro
다음	CDNA 2

AMD CDNA
출시일	2020년 11월 16일; (4년 전)
제조 공정	TSMC N7; TSMC N6; TSMC N5;
역사
이전	AMD FirePro
종류	RDNA (소비자, 전문가)

CDNA(Compute DNA)는 데이터 센터용 그래픽 처리 장치(GPU) 마이크로아키텍처이며, AMD가 설계했다. 주로 AMD 인스팅트 데이터 센터 그래픽 카드 라인에 사용되는 CDNA는 그래픽스 코어 넥스트(GCN) 마이크로아키텍처의 후속 제품이다. 다른 후속 제품은 소비자 그래픽 중심의 마이크로아키텍처인 RDNA(라데온 DNA)이다.

1세대 CDNA는 2020년 3월 5일에 발표되었으며,^[2] 2020년 11월 16일에 출시된 AMD 인스팅트 MI100에 탑재되었다.^[3] 이것은 CDNA 1의 유일한 생산 제품이며, TSMC의 N7 핀펫 공정으로 제조되었다.

2세대 CDNA 라인은 이전 세대의 모놀리식 접근 방식과 달리 멀티칩 모듈(MCM) 방식을 구현했다. AMD 인스팅트 MI250X와 MI250에 탑재된 이 MCM 디자인은 EFB(Elevated Fanout Bridge)^[4]를 사용하여 다이를 연결했다. 이 두 제품은 2021년 11월 8일에 발표되었고 11월 11일에 출시되었다. CDNA 2 라인에는 모놀리식 디자인을 사용하는 MI210^[5]이라는 또 다른 늦게 출시된 제품이 포함된다. MI250X 및 MI250은 오픈 컴퓨트 프로젝트 (OCP)의 OCP 액셀러레이터 모듈(OAM) 소켓 폼팩터를 사용한 최초의 AMD 제품이었다. 저전력 PCI 익스프레스 버전도 사용할 수 있다.

CDNA의 3세대는 여러 노드에서 제조된 다른 칩렛을 활용하는 MCM 디자인으로 전환한다. 현재 MI300X와 MI300A로 구성된 이 제품은 15개의 고유한 다이를 포함하고 있으며 고급 3D 패키징 기술로 연결된다. MI300 시리즈는 2023년 1월 5일에 발표되었고 2023년 하반기에 출시되었다.

CDNA 1

CDNA 제품군은 아르크투루스라는 이름의 단일 다이로 구성된다. 이 다이는 750 제곱 밀리미터이며, 256억 개의 트랜지스터를 포함하고 TSMC의 N7 노드에서 제조되었다.^[6] 아르크투루스 다이는 120개의 컴퓨트 유닛과 4096비트 메모리 버스를 가지며, 4개의 HBM2 배치에 연결되어 32GB의 메모리와 1200GB/s 이상의 메모리 대역폭을 제공한다. 이전 세대와 비교하여 CDNA는 그래픽 가속과 관련된 모든 하드웨어를 제거했다. 이 제거에는 그래픽 캐시, 테셀레이션 하드웨어, 렌더 출력 장치(ROP), 디스플레이 엔진 등이 포함되지만 이에 국한되지 않는다. CDNA는 HEVC, H.264/MPEG-4 AVC, VP9 디코딩을 위한 VCN 미디어 엔진을 유지한다.^[7] CDNA는 또한 엔비디아의 볼타 아키텍처에 추가된 것과 유사한 전용 매트릭스 컴퓨트 하드웨어를 추가했다.

아키텍처

120개의 컴퓨트 유닛(CU)은 4개의 비동기 컴퓨트 엔진(ACE)으로 구성되어 있으며, 각 ACE는 자체 독립적인 명령 실행 및 디스패치를 유지한다. CU 레벨에서 CDNA 컴퓨트 유닛은 GCN 유닛과 유사하게 구성된다. 각 CU에는 4개의 SIMD16이 포함되어 있으며, 각 SIMD16은 4개의 사이클 동안 64스레드 웨이브프론트(Wave64)를 실행한다.

메모리 시스템

CDNA는 HBM 클럭이 20% 향상되어 베가 20(GCN 5.0) 대비 약 200GB/s의 대역폭 증가를 가져왔다. 이 다이는 4MB의 공유 L2 캐시를 가지며, 이 캐시는 클럭당 2KB를 CU로 내보낸다. CU 레벨에서 각 CU는 자체 L1 캐시, CU당 64KB의 로컬 데이터 스토어(LDS), 그리고 모든 CU가 공유하는 4KB의 전역 데이터 스토어(GDS)를 가진다. 이 GDS는 제어 데이터, 축소 작업 또는 작은 전역 공유 표면으로 사용할 수 있다.^[7]^[8]

실험적 PIM 구현

2022년 10월, 삼성은 MI100의 PIM(Processing-In-Memory) 특화 버전을 시연했다. 2022년 12월, 삼성은 96개의 수정된 MI100 클러스터를 선보였으며, 다양한 워크로드에서 처리 처리량이 크게 증가하고 전력 소비가 크게 감소했다고 밝혔다.^[9]

GCN과의 변경점

개별 컴퓨트 유닛은 GCN과 매우 유사하지만 CU당 4개의 매트릭스 유닛이 추가되었다. BF16, INT8, INT4 등 더 많은 데이터 유형이 지원된다.^[7] 매트릭스 유닛과 새로운 데이터 유형을 활용하는 작업의 광범위한 목록은 CDNA ISA 참조 가이드를 참조하십시오.

CDNA 2

CDNA와 마찬가지로 CDNA 2도 알데바란이라는 이름의 단일 다이로 구성된다. 이 다이는 790 제곱 밀리미터로 추정되며, 280억 개의 트랜지스터를 포함하고 TSMC의 N6 노드에서 제조되었다.^[10] 알데바란 다이는 112개의 컴퓨트 유닛만 포함하며, 아르크투루스보다 6.67% 감소했다. 이전 세대와 마찬가지로 이 다이는 4096비트 메모리 버스를 포함하며, 현재 HBM2e를 사용하여 용량이 두 배로 증가하여 64GB에 달한다. CDNA 2의 가장 큰 변화는 두 개의 다이를 동일한 패키지에 배치할 수 있다는 점이다. MI250X는 2개의 알데바란 다이, 220개의 CU(다이당 110개) 및 128GB의 HBM2e로 구성된다. 이 다이들은 4개의 인피니티 패브릭 링크로 연결되며 호스트 시스템에 의해 독립적인 GPU로 주소 지정된다.^[11]

아키텍처

112개의 CU는 이전 세대의 30개 대신 4개의 비동기 컴퓨트 엔진으로 CDNA와 유사하게 구성되어 있으며, 각 엔진에는 28개의 CU가 있다. CDNA와 마찬가지로 각 CU에는 4개의 SIMD16 유닛이 포함되어 있으며, 4개의 사이클에 걸쳐 64스레드 웨이브프론트를 실행한다. 4개의 매트릭스 엔진과 벡터 유닛은 완전 속도 FP64에 대한 지원을 추가하여 이전 세대에 비해 성능이 크게 향상되었다.^[12] CDNA 2는 또한 여러 내부 캐시를 수정하여 대역폭을 전반적으로 두 배로 늘렸다.

메모리 시스템

CDNA 2의 메모리 시스템은 전반적으로 개선되었다. HBM2e로 전환하면서 용량이 64GB로 두 배가 되었고 대역폭도 약 3분의 1(약 1200GB/s에서 1600GB/s) 증가했다.^[11] 캐시 레벨에서 각 GCD는 16방향, 8MB L2 캐시를 가지고 있으며, 32개의 슬라이스로 분할되어 있다. 이 캐시는 클럭당 4KB, 슬라이스당 클럭당 128B를 내보내며, 이는 CDNA보다 대역폭이 두 배가 되었다.^[11] 또한, 4KB 전역 데이터 스토어가 제거되었다.^[12] L2 및 LDS를 포함한 모든 캐시는 FP64 데이터에 대한 지원이 추가되었다.

인터커넥트

CDNA 2는 동일 패키지에 여러 GPU를 탑재한 최초의 제품을 선보인다. 두 개의 GPU 다이는 4개의 인피니티 패브릭 링크로 연결되어 총 양방향 대역폭이 400GB/s이다.^[12] 각 다이에는 8개의 인피니티 패브릭 링크가 포함되어 있으며, 각 링크는 16레인 인피니티 링크로 물리적으로 구현된다. AMD 프로세서와 페어링하면 인피니티 패브릭 역할을 한다. 다른 x86 프로세서와 페어링하면 PCI 익스프레스 4.0의 16개 레인으로 대체된다.^[12]

CDNA와의 변경점

가장 큰 변화는 모든 컴퓨팅 요소에서 완전 속도 FP64 지원이 추가되었다는 점이다. 이로 인해 FP64 매트릭스 계산에서 4배 증가했으며, FP64 벡터 계산에서도 크게 증가했다.^[11] 또한 'V_PK_FMA_F32' 및 'V_PK_MUL_F32'와 같은 연산 코드와 함께 패키지된 FP32 연산 지원이 추가되었다.^[13] 패키지된 FP32 연산은 최대 2배의 처리량을 가능하게 하지만 코드 수정이 필요하다.^[11] CDNA와 마찬가지로 CDNA 2 연산에 대한 자세한 정보는 CDNA 2 ISA 참조 가이드를 참조하십시오.

제품

AMD Instinct CDNA 2 GPU 세대 MI-2xx
액셀러레이터	출시일	아키텍처	리소그래피	컴퓨트 유닛	메모리			PCIe 지원	폼팩터	처리 능력								TBP
액셀러레이터	출시일	아키텍처	리소그래피	컴퓨트 유닛	크기	유형	대역폭 (GB/s)	PCIe 지원	폼팩터	FP16	BF16	FP32	FP32 매트릭스	FP64 성능	FP64 매트릭스	INT8	INT4	TBP
MI210	2022-03-22^[14]	CDNA 2	6 nm	104	64 GB	HBM2E	1600			181 TFLOPS		22.6 TFLOPS	45.3 TFLOPS	22.6 TFLOPS	45.3 TFLOPS	181 TOPS		300 W
MI250	2021-11-08^[15]			208	128 GB		3200	OAM		362.1 TFLOPS		45.3 TFLOPS	90.5 TFLOPS	45.3 TFLOPS	90.5 TFLOPS	362.1 TOPS		560 W
MI250X	2021-11-08^[15]			220	128 GB		3200	OAM		383 TFLOPS		47.92 TFLOPS	95.7 TFLOPS	47.9 TFLOPS	95.7 TFLOPS	383 TOPS		560 W

CDNA 3

AMD CDNA 3
역사
출시일	2023년 12월 6일 (21개월 전)(2023-12-06)
제조 공정	TSMC N5 & N6
이전	CDNA 2

이전 세대와 달리 CDNA 3은 AMD의 젠 2, 3, 4 제품군과 유사하게 멀티칩 시스템에 사용되는 여러 개의 다이로 구성된다. MI300 패키지는 비교적 거대하며, 5nm 공정으로 생산된 9개의 칩렛이 4개의 6nm 칩렛 위에 놓여 있다.^[16] 이것은 모두 8개의 HBM 배치를 사용하여 128GB의 HBM3와 결합되었다.^[17] 이 패키지에는 약 1460억 개의 트랜지스터가 포함되어 있다. 인스팅트 MI300X와 APU인 MI300A 형태로 제공된다. 이 제품들은 2023년 12월 6일에 출시되었다.^[18]

제품

AMD Instinct CDNA 3 GPU 세대 - MI-3xx
액셀러레이터	출시일	아키텍처	리소그래피	컴퓨트 유닛	메모리			PCIe 지원	폼팩터	처리 능력								TBP
액셀러레이터	출시일	아키텍처	리소그래피	컴퓨트 유닛	크기	유형	대역폭 (GB/s)	PCIe 지원	폼팩터	FP16	BF16	FP32	FP32 매트릭스	FP64 성능	FP64 매트릭스	INT8	INT4	TBP
MI300A	2023-12-06^[19]	CDNA 3	6 & 5 nm	228	128 GB	HBM3	5300	5.0	APU SH5 socket	980.6 TFLOPS 1961.2 TFLOPS (with Sparsity)		122.6 TFLOPS		61.3 TFLOPS	122.6 TFLOPS	1961.2 TOPS 3922.3 TOPS (with Sparsity)	N/A	550 W 760 W (with liquid cooling)
MI300X	2023-12-06^[19]			304	192 GB	HBM3	5300		OAM	1307.4 TFLOPS 2614.9 TFLOPS (with Sparsity)		163.4 TFLOPS		81.7 TFLOPS	163.4 TFLOPS	2614.9 TOPS 5229.8 TOPS (with Sparsity)	N/A	750 W
MI325X	2024-10-10^[20]			304	256 GB	HBM3E	6000		OAM	1307.4 TFLOPS 2614.9 TFLOPS (with Sparsity)		163.4 TFLOPS		81.7 TFLOPS	163.4 TFLOPS	2614.9 TOPS 5229.8 TOPS (with Sparsity)	N/A	750 W

같이 보기

각주

↑ Smith, Ryan (2022년 6월 9일). “AMD: Combining CDNA 3 and Zen 4 for MI300 Data Center APU in 2023”. 《AnandTech》. 2022년 12월 20일에 확인함.
↑ Smith, Ryan. “AMD Unveils CDNA GPU Architecture: A Dedicated GPU Architecture for Data Centers”. 《www.anandtech.com》. 2022년 9월 20일에 확인함.
↑ “GPU Database: AMD Radeon Instinct MI100”. 《TechPowerUp》. 2022년 9월 20일에 확인함.
↑ Smith, Ryan. “AMD Announces Instinct MI200 Accelerator Family: Taking Servers to Exascale and Beyond”. 《www.anandtech.com》. 2022년 9월 21일에 확인함.
↑ Smith, Ryan. “AMD Releases Instinct MI210 Accelerator: CDNA 2 On a PCIe Card”. 《www.anandtech.com》. 2022년 9월 21일에 확인함.
↑ Kennedy, Patrick (2020년 11월 16일). “AMD Instinct MI100 32GB CDNA GPU Launched” (미국 영어). 《ServeTheHome》. 2022년 9월 22일에 확인함.
↑ ^가 ^나 ^다 “AMD CDNA Whitepaper” (PDF). 《amd.com》. 2020년 3월 5일. 2022년 9월 22일에 확인함.
↑ “"AMD Instinct MI100" Instruction Set Architecture, Reference Guide” (PDF). 《developer.amd.com》. 2020년 12월 14일. 2022년 9월 22일에 확인함.
↑ Aaron Klotz (2022년 12월 14일). “Samsung Soups Up 96 AMD MI100 GPUs With Radical Computational Memory” (영어). 《Tom's Hardware》. 2022년 12월 23일에 확인함.
↑ Anton Shilov (2021년 11월 17일). “AMD's Instinct MI250X OAM Card Pictured: Aldebaran's Massive Die Revealed” (영어). 《Tom's Hardware》. 2022년 11월 20일에 확인함.
↑ ^가 ^나 ^다 ^라 ^마 “Hot Chips 34 – AMD's Instinct MI200 Architecture” (미국 영어). 《Chips and Cheese》. 2022년 9월 18일. 2022년 11월 10일에 확인함.
↑ ^가 ^나 ^다 ^라 “INTRODUCING AMD CDNA™ 2 ARCHITECTURE” (PDF). 《AMD.com》. 2022년 11월 20일에 확인함.
↑ “"AMD Instinct MI200" Instruction Set Architecture” (PDF). 《developer.amd.com》. 2022년 2월 4일. 2022년 10월 11일에 확인함.
↑ Smith, Ryan. “AMD Releases Instinct MI210 Accelerator: CDNA 2 On a PCIe Card”. 《www.anandtech.com》. 2024년 6월 3일에 확인함.
↑ Smith, Ryan. “AMD Announces Instinct MI200 Accelerator Family: Taking Servers to Exascale and Beyond”. 《www.anandtech.com》. 2024년 6월 3일에 확인함.
↑ Smith, Ryan. “CES 2023: AMD Instinct MI300 Data Center APU Silicon In Hand - 146B Transistors, Shipping H2'23”. 《www.anandtech.com》. 2023년 1월 22일에 확인함.
↑ Paul Alcorn (2023년 1월 5일). “AMD Instinct MI300 Data Center APU Pictured Up Close: 13 Chiplets, 146 Billion Transistors” (영어). 《Tom's Hardware》. 2023년 1월 22일에 확인함.
↑ Kennedy, Patrick (2023년 12월 6일). “AMD Instinct MI300X GPU and MI300A APUs Launched for AI Era” (미국 영어). 《ServeTheHome》. 2024년 4월 15일에 확인함.
↑ Bonshor, Ryan Smith, Gavin. “The AMD Advancing AI & Instinct MI300 Launch Live Blog (Starts at 10am PT/18:00 UTC)”. 《www.anandtech.com》. 2024년 6월 3일에 확인함.
↑ Smith, Ryan. “AMD Plans Massive Memory Instinct MI325X for Q4'24, Lays Out Accelerator Roadmap to 2026”. 《www.anandtech.com》. 2024년 6월 3일에 확인함.

외부 링크

[1] Smith, Ryan (2022년 6월 9일). “AMD: Combining CDNA 3 and Zen 4 for MI300 Data Center APU in 2023”. 《AnandTech》. 2022년 12월 20일에 확인함.

[2] Smith, Ryan. “AMD Unveils CDNA GPU Architecture: A Dedicated GPU Architecture for Data Centers”. 《www.anandtech.com》. 2022년 9월 20일에 확인함.

[3] “GPU Database: AMD Radeon Instinct MI100”. 《TechPowerUp》. 2022년 9월 20일에 확인함.

[4] Smith, Ryan. “AMD Announces Instinct MI200 Accelerator Family: Taking Servers to Exascale and Beyond”. 《www.anandtech.com》. 2022년 9월 21일에 확인함.

[5] Smith, Ryan. “AMD Releases Instinct MI210 Accelerator: CDNA 2 On a PCIe Card”. 《www.anandtech.com》. 2022년 9월 21일에 확인함.

[6] Kennedy, Patrick (2020년 11월 16일). “AMD Instinct MI100 32GB CDNA GPU Launched” (미국 영어). 《ServeTheHome》. 2022년 9월 22일에 확인함.

[:0-7] 가 ^나 ^다 “AMD CDNA Whitepaper” (PDF). 《amd.com》. 2020년 3월 5일. 2022년 9월 22일에 확인함.

[8] “"AMD Instinct MI100" Instruction Set Architecture, Reference Guide” (PDF). 《developer.amd.com》. 2020년 12월 14일. 2022년 9월 22일에 확인함.

[9] Aaron Klotz (2022년 12월 14일). “Samsung Soups Up 96 AMD MI100 GPUs With Radical Computational Memory” (영어). 《Tom's Hardware》. 2022년 12월 23일에 확인함.

[10] Anton Shilov (2021년 11월 17일). “AMD's Instinct MI250X OAM Card Pictured: Aldebaran's Massive Die Revealed” (영어). 《Tom's Hardware》. 2022년 11월 20일에 확인함.

[:1-11] 가 ^나 ^다 ^라 ^마 “Hot Chips 34 – AMD's Instinct MI200 Architecture” (미국 영어). 《Chips and Cheese》. 2022년 9월 18일. 2022년 11월 10일에 확인함.

[:2-12] 가 ^나 ^다 ^라 “INTRODUCING AMD CDNA™ 2 ARCHITECTURE” (PDF). 《AMD.com》. 2022년 11월 20일에 확인함.

[13] “"AMD Instinct MI200" Instruction Set Architecture” (PDF). 《developer.amd.com》. 2022년 2월 4일. 2022년 10월 11일에 확인함.

[14] Smith, Ryan. “AMD Releases Instinct MI210 Accelerator: CDNA 2 On a PCIe Card”. 《www.anandtech.com》. 2024년 6월 3일에 확인함.

[15] Smith, Ryan. “AMD Announces Instinct MI200 Accelerator Family: Taking Servers to Exascale and Beyond”. 《www.anandtech.com》. 2024년 6월 3일에 확인함.

[:3-16] Smith, Ryan. “CES 2023: AMD Instinct MI300 Data Center APU Silicon In Hand - 146B Transistors, Shipping H2'23”. 《www.anandtech.com》. 2023년 1월 22일에 확인함.

[:4-17] Paul Alcorn (2023년 1월 5일). “AMD Instinct MI300 Data Center APU Pictured Up Close: 13 Chiplets, 146 Billion Transistors” (영어). 《Tom's Hardware》. 2023년 1월 22일에 확인함.

[18] Kennedy, Patrick (2023년 12월 6일). “AMD Instinct MI300X GPU and MI300A APUs Launched for AI Era” (미국 영어). 《ServeTheHome》. 2024년 4월 15일에 확인함.

[19] Bonshor, Ryan Smith, Gavin. “The AMD Advancing AI & Instinct MI300 Launch Live Blog (Starts at 10am PT/18:00 UTC)”. 《www.anandtech.com》. 2024년 6월 3일에 확인함.

[20] Smith, Ryan. “AMD Plans Massive Memory Instinct MI325X for Q4'24, Lays Out Accelerator Roadmap to 2026”. 《www.anandtech.com》. 2024년 6월 3일에 확인함.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]