매니코어 프로세서

매니코어 프로세서(manycore processor)는 높은 수준의 병렬 처리를 위해 설계된 특별한 종류의 멀티 코어 프로세서로, 수십 개에서 수천 개 이상의 단순하고 독립적인 프로세서 코어를 포함한다. 매니코어 프로세서는 임베디드 시스템과 고성능 컴퓨팅 분야에서 광범위하게 사용된다.

멀티코어 아키텍처와의 대조

매니코어 프로세서는 멀티 코어 프로세서와 달리 처음부터 높은 수준의 명시적 병렬성과 지연 시간 및 낮은 단일 스레드 성능을 희생하면서도 높은 처리량(또는 낮은 전력 소비)을 위해 최적화되었다.

반면, 광범위한 범주의 멀티 코어 프로세서는 일반적으로 병렬 및 직렬 코드를 모두 효율적으로 실행하도록 설계되었으며, 따라서 높은 단일 스레드 성능에 더 중점을 둔다(예: 비순차적 명령어 처리, 더 깊은 파이프라인, 더 많은 슈퍼스칼라 실행 장치, 더 크고 일반적인 캐시에 더 많은 실리콘을 할당하고 공유 메모리를 사용). 이러한 기술은 단일 스레드에서 내재된 병렬성을 파악하는 데 런타임 자원을 투입한다. 이들은 단일 코어 프로세서에서 (하위 호환성을 유지하며) 지속적으로 발전해 온 시스템에 사용된다. 이들은 일반적으로 '소수의' 코어(예: 2, 4, 8)를 가지며, 이기종 시스템에서 매니코어 가속기(예: GPU)로 보완될 수 있다.

동기

캐시 일관성은 멀티코어 프로세서의 확장성을 제한하는 문제이다. 매니코어 프로세서는 메시지 전달^[1], 스크래치패드 메모리, DMA^[2], 분할 전역 주소 공간^[3] 또는 읽기 전용/비일관성 캐시와 같은 방법을 통해 이를 우회할 수 있다. 네트워크 온 칩과 로컬 메모리를 사용하는 매니코어 프로세서는 소프트웨어에게 태스크의 공간적 레이아웃을 명시적으로 최적화할 기회를 제공한다(예: 트루노스를 위해 개발된 툴링에서 볼 수 있듯이).^[4]

매니코어 프로세서는 고성능 컴퓨팅에서 유래한 클러스터 및 벡터 프로세서와 같은 기술과 (개념적으로) 더 많은 공통점을 가질 수 있다.^[5]

GPU는 여러 셰이더 처리 장치를 가지며, 고도로 병렬적인 코드에만 적합한(높은 처리량, 그러나 매우 낮은 단일 스레드 성능) 매니코어 프로세서의 한 형태로 간주될 수 있다.

프로그래밍 모델

매니코어 시스템의 분류

GPU, 매니코어 벡터 프로세서로 설명될 수 있다.
대규모 병렬 프로세서 배열
비동기 단순 프로세서 배열
공간 아키텍처

특정 매니코어 아키텍처

ZettaScaler [1], 일본 PEZY Computing의 2,048코어 모듈
제온 파이 코프로세서 (MIC(Many Integrated Cores) 아키텍처)
틸레라
아답테바 에피파니 아키텍처, PGAS 스크래치패드 메모리를 사용하는 매니코어 칩
코히런트 로직스 hx3100 프로세서, 하이퍼X 아키텍처 기반 100코어 DSP/GPP 프로세서
모비디우스 마이리아드 2, 매니코어 비전 처리 장치 (VPU)
칼레이, 데이터 집약적인 작업을 위한 매니코어 PCI-e 가속기
테라플롭스 연구 칩, 메시지 전달을 사용하는 매니코어 프로세서
트루노스, 매니코어 네트워크 온 칩 아키텍처를 가진 AI 가속기
그린 어레이, 저전력 애플리케이션을 목표로 메시지 전달을 사용하는 매니코어 프로세서
Sunway SW26010, 당시 세계 1위 슈퍼컴퓨터인 선웨이 타이후라이트에 사용된 260코어 매니코어 프로세서
- SW52020, SW26010의 개선된 520코어^[8]^[9] 변형으로 512비트 SIMD를 지원하며(하프 정밀도 지원 추가), 엑사스케일 시스템(향후 10 엑사스케일 시스템)을 위한 프로토타입에 사용되었다. datacenterdynamics에 따르면 중국은 이미 두 개의 별도 엑사스케일 시스템을 비밀리에 보유하고 있다는 소문이 있다.
아이어리스, 임베디드 비전 애플리케이션을 위한 컨볼루션 신경망 실행을 위해 설계된 매니코어 프로세서^[10]
그래프코어, 매니코어 AI 가속기

100만 개 이상의 CPU 코어를 가진 특정 매니코어 컴퓨터

멀티코어 프로세서로 구축된 많은 컴퓨터들이 100만 개 이상의 개별 CPU 코어를 가지고 있다. 다음은 그 예시이다:

교코 (일본어: 暁光 헵번: gyōkō, 새벽 빛), ExaScaler와 PEZY Computing이 개발한 슈퍼컴퓨터로, 총 20,480,000개의 처리 요소와 1,250개의 인텔 제온 D 호스트 프로세서를 포함한다.
스피나커, 인간 뇌 프로젝트의 일환으로 구축된 대규모 병렬 (100만 CPU 코어) 매니코어 프로세서(ARM 기반).

5백만 개 이상의 CPU 코어를 가진 특정 컴퓨터

꽤 많은 슈퍼컴퓨터가 5백만 개 이상의 CPU 코어를 가지고 있다. 코프로세서, 예를 들어 GPU가 함께 사용될 경우 해당 코어는 코어 수에 포함되지 않으므로, 더 많은 컴퓨터가 이러한 목표를 달성할 수 있다.

프론티어
후가쿠, 후지쯔 A64FX ARM 기반 코어를 사용하는 일본 슈퍼컴퓨터로 총 7,630,848개 코어.
선웨이 타이후라이트, 대규모 병렬 (1천만 CPU 코어) 중국 슈퍼컴퓨터로, 한때 세계에서 가장 빠른 슈퍼컴퓨터 중 하나였으며, 커스텀 매니코어 아키텍처를 사용한다. 2018년 11월 기준으로 TOP500 목록에서 세계에서 세 번째로 빠른 슈퍼컴퓨터였으며, 각각 256개의 코어를 포함하는 40,960개의 SW26010 매니코어 프로세서에서 성능을 얻었다.

같이 보기

각주

↑ Mattson, Tim (January 2010). “The Future of Many Core Computing: A tale of two processors” (PDF).
↑ Hendry, Gilbert; Kretschmann, Mark. “IBM Cell Processor” (PDF). 2022년 6월 15일에 원본 문서 (PDF)에서 보존된 문서. 2025년 8월 1일에 확인함.
↑ Olofsson, Andreas; Nordström, Tomas; Ul-Abdin, Zain (2014). “Kickstarting High-performance Energy-efficient Manycore Architectures with Epiphany”. arXiv:1412.5538 [cs.AR].
↑ Amir, Arnon (2015년 6월 11일). “IBM SyNAPSE Deep Dive Part 3”. IBM Research. 2024년 12월 10일에 원본 문서에서 보존된 문서. 2025년 8월 1일에 확인함.
↑ “cell architecture”. "The Cell architecture is like nothing we have ever seen in commodity microprocessors, it is closer in design to multiprocessor vector supercomputers"
↑ Rick Merritt (2011년 6월 20일), “OEMs show systems with Intel MIC chips”, 《www.eetimes.com》 (EE Times)
↑ Barker, J; Bowden, J (2013). 〈Manycore Parallelism through OpenMP〉. 《OpenMP in the Era of Low Power Devices and Accelerators》. IWOMP. Lecture Notes in Computer Science, vol 8122. Springer. doi:10.1007/978-3-642-40698-0_4.
↑ Morgan, Timothy Prickett (2021년 2월 10일). “A First Peek At China's Sunway Exascale Supercomputer” (미국 영어). 《The Next Platform》. 2021년 11월 18일에 확인함.
↑ Hemsoth, Nicole (2021년 4월 19일). “China's Exascale Prototype Supercomputer Tests AI Workloads” (미국 영어). 《The Next Platform》. 2021년 11월 18일에 확인함.
↑ Chen, Yu-Hsin; Krishna, Tushar; Emer, Joel; Sze, Vivienne (2016). “Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks”. 《IEEE International Solid-State Circuits Conference, ISSCC 2016, Digest of Technical Papers》. 262–263쪽.

외부 링크

Architecting solutions for the Manycore future, 2010년 2월 19일 게시 (슬라이드에 유효하지 않은 링크가 하나 이상 있음)
Eyeriss architecture

[1] Mattson, Tim (January 2010). “The Future of Many Core Computing: A tale of two processors” (PDF).

[2] Hendry, Gilbert; Kretschmann, Mark. “IBM Cell Processor” (PDF). 2022년 6월 15일에 원본 문서 (PDF)에서 보존된 문서. 2025년 8월 1일에 확인함.

[3] Olofsson, Andreas; Nordström, Tomas; Ul-Abdin, Zain (2014). “Kickstarting High-performance Energy-efficient Manycore Architectures with Epiphany”. arXiv:1412.5538 [cs.AR].

[4] Amir, Arnon (2015년 6월 11일). “IBM SyNAPSE Deep Dive Part 3”. IBM Research. 2024년 12월 10일에 원본 문서에서 보존된 문서. 2025년 8월 1일에 확인함.

[5] “cell architecture”. "The Cell architecture is like nothing we have ever seen in commodity microprocessors, it is closer in design to multiprocessor vector supercomputers"

[6] Rick Merritt (2011년 6월 20일), “OEMs show systems with Intel MIC chips”, 《www.eetimes.com》 (EE Times)

[7] Barker, J; Bowden, J (2013). 〈Manycore Parallelism through OpenMP〉. 《OpenMP in the Era of Low Power Devices and Accelerators》. IWOMP. Lecture Notes in Computer Science, vol 8122. Springer. doi:10.1007/978-3-642-40698-0_4.

[8] Morgan, Timothy Prickett (2021년 2월 10일). “A First Peek At China's Sunway Exascale Supercomputer” (미국 영어). 《The Next Platform》. 2021년 11월 18일에 확인함.

[9] Hemsoth, Nicole (2021년 4월 19일). “China's Exascale Prototype Supercomputer Tests AI Workloads” (미국 영어). 《The Next Platform》. 2021년 11월 18일에 확인함.

[10] Chen, Yu-Hsin; Krishna, Tushar; Emer, Joel; Sze, Vivienne (2016). “Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks”. 《IEEE International Solid-State Circuits Conference, ISSCC 2016, Digest of Technical Papers》. 262–263쪽.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

v t e 프로세서 기술
구조	튜링 기계 포스트 튜링 기계 범용 튜링 기계 양자 튜링 기계 벨트 머신 스택 머신 레지스터 머신 카운터 머신 포인터 머신 랜덤 접근 기계 랜덤 액세스 스토어드 프로그램 머신 유한 상태 기계 큐 오토마톤 폰 노이만 하버드 (수정됨) 데이터플로 TTA 셀룰러 인공신경망 기계 학습 딥 러닝 신경 처리 장치 (NPU) 돌림형 신경망 로드/스토어 아키텍처 레지스터 메모리 아키텍처 엔디언 FIFO 제로 카피 NUMA HUMA HSA 모바일 컴퓨팅 서피스 컴퓨팅 착용 컴퓨팅 이기종 컴퓨팅 병렬 컴퓨팅 병행 컴퓨팅 분산 컴퓨팅 클라우드 컴퓨팅 무정형 컴퓨팅 유비쿼터스 컴퓨팅 패브릭 컴퓨팅 재배열 컴퓨팅 인지 컴퓨팅 아날로그 컴퓨팅 기계식 컴퓨팅 하이브리드 컴퓨팅 디지털 컴퓨팅 DNA 컴퓨팅 펩타이드 컴퓨팅 화학 컴퓨팅 유기 컴퓨팅 웻웨어 컴퓨팅 양자 컴퓨터 신경 모방 컴퓨팅 광 컴퓨터 리버서블 컴퓨팅 비전통 컴퓨팅 하이퍼 계산 3진법 컴퓨터 대칭형 다중 처리 (SMP) 비대칭형 다중 처리 (AMP) 캐시 계층 메모리 계층 구조
ISA 유형	ASIP CISC RISC EDGE (TRIPS) VLIW (EPIC) MISC OISC NISC ZISC 비교
ISA	X86 z/아키텍처 ARM MIPS 파워 아키텍처 (파워PC) SPARC 밀 아이테니엄 (IA-64) 알파 프리즘 슈퍼H V850 클리퍼 VAX 유니코어 PA-RISC 마이크로블레이즈 RISC-V
워드 크기	1비트 2비트 4비트 8비트 9비트 10비트 12비트 15비트 16비트 18비트 22비트 24비트 25비트 26비트 27비트 31비트 32비트 33비트 34비트 36비트 39비트 40비트 48비트 50비트 60비트 64비트 128비트 256비트 512비트 가변
실행	명령어 파이프라인 버블 피연산자 포워딩 비순차적 명령어 처리 레지스터 리네이밍 모의 실행 분기 예측 메모리 의존성 예측 하자드
병렬 레벨	비트 비트 직렬 워드 명령어 파이프라이닝 스칼라 슈퍼스칼라 태스크 스레드 프로세스 데이터 벡터 메모리
멀티스레딩	시간적 동시 (SMT) (하이퍼스레딩) SpMT 선점 협력형 클러스터 멀티스레드 (CMT) 하드웨어 스카웃
플린 분류	SISD SIMD (SWAR) SIMT MISD MIMD SPMD 어드레싱 모드
CPU 성능	초당 명령 수 (IPS) 클럭당 명령어 처리 횟수 (IPC) 명령어 당 사이클 (CPI) 플롭스 (FLOPS) 초당 트랜잭션 수 (TPS) SUPS 전성비 계산 차수 캐시 성능 측정 및 메트릭
코어 카운트	싱글 코어 프로세서 멀티 코어 매니코어 프로세서
유형	중앙 처리 장치 (CPU) GPGPU AI 가속기 시각 처리 장치 (VPU) 벡터 프로세서 배럴 프로세서 스트림 프로세서 디지털 신호 처리 장치 (DSP) 입출력 프로세서/DMA 컨트롤러 네트워크 프로세서 베이스밴드 프로세서 물리 처리 장치 (PPU) 코프로세서 안전한 암호 보조 처리기 주문형 반도체 FPGA FPOA 복합 프로그래머블 논리 소자 마이크로컨트롤러 마이크로프로세서 모바일 프로세서 노트북 프로세서 초저전압 프로세서 멀티 코어 매니코어 프로세서 타일 프로세서 멀티칩 모듈 (MCM) 칩 스택 멀티칩 모듈 단일 칩 시스템 (SoC) 멀티프로세서 시스템 온 칩 (MPSoC) 프로그래밍 가능 단일 칩 시스템 (PSoC) 네트워크 온 칩 (NoC)
구성 요소	실행 장치 (EU) 산술 논리 장치 (ALU) 주소 생성 장치 (AGU) 부동소수점 장치 (FPU) 로드 스토어 유닛 (LSU) 분기 예측 유니파이드 레저베이션 스테이션 배럴 시프터 언코어 Sum addressed decoder (SAD) 프론트 사이드 버스 백사이드 버스 노스브리지 사우스브리지 가산기 곱셈기 복호화 주소 디코더 멀티플렉서 멀티플렉서 레지스터 캐시 메모리 관리 장치 (MMU) IOMMU 통합 메모리 컨트롤러 (IMC) 전원 관리 장치 (PMU) 변환 색인 버퍼 (TLB) 스택 엔진 레지스터 파일 프로세서 레지스터 하드웨어 레지스터 메모리 버퍼 레지스터 (MBR) 프로그램 카운터 마이크로코드 ROM 데이터패스 제어 장치 인스트럭션 유닛 재배열 버퍼 버퍼 쓰기 버퍼 코프로세서 전자 개폐기 전자 회로 집적 회로 3차원 집적 회로 불리언 회로 디지털 회로 아날로그 회로 혼합 신호 집적 회로 전원 관리 집적 회로 퀀텀 회로 논리 회로 조합 논리 순차 논리 이미터 결합 논리 (ECL) 트랜지스터-트랜지스터 논리 (TTL) 글루 로직 퀀텀 게이트 게이트 배열 계수기 버스 반도체 소자 클럭 속도 CPU 배수 비전 칩 멤리스터
전원 관리	APM ACPI 동적 주파수 스케일링 동적 전압 스케일링 클럭 게이팅
하드웨어 보안	NX 비트 인텔 MPX 인텔 시큐어 키 하드웨어 제한 (펌웨어) Software Guard Extensions (인텔 SGX) Trusted Execution Technology 신뢰 플랫폼 모듈 (TPM) 안전한 암호 보조 처리기 하드웨어 보안 모듈 헝즈칩
관련 항목	범용 CPU의 역사

v t e 병렬 컴퓨팅
일반	클라우드 컴퓨팅 고성능 컴퓨팅 클러스터 컴퓨팅 분산 컴퓨팅 그리드 컴퓨팅
병렬화 수준	비트 명령어 데이터 테스크
스레드	슈퍼스레딩 하이퍼스레딩
이론	암달의 법칙 구스타프슨의 법칙 비용 효과 카프-플랫 척도 감속 스피드업
구성 요소	프로세스 스레드 파이버 PRAM 명령어 윈도우
조정	멀티스레딩 메모리 일관성 캐시 일관성 메모리 배리어 동기화 애플리케이션 체크포인트
프로그래밍	모델(내재적 병렬성 외재적 병렬성 동시성) 플린의 분류학(SISD SIMD MISD MIMD) 스레드
하드웨어	다중 처리(대칭형 비대칭형) 메모리(NUMA COMA 분산 공유 분산 공유) SMT SMP MPP 슈퍼스칼라 벡터 프로세서 슈퍼컴퓨터 베어울프
API	POSIX 스레드 OpenMP PVM MPI UPC 스레딩 빌딩 블록 Boost 전역 배열 Charm++ Cilk/실크 플러스 코어레이 포트란 OpenCL CUDA
문제	처치 곤란 병렬 문제 그랜드 챌린지 문제 소프트웨어 락아웃 확장성 경쟁 상태 교착 상태 라이브락 결정론적 알고리즘 병렬 감속