프로필사진

Go, Vantage point

가까운 곳을 걷지 않고 서는 먼 곳을 갈 수 없다.


Github | https://github.com/overnew/

Blog | https://everenew.tistory.com/





티스토리 뷰

반응형

 

 

 

몇 년 전 대학교 연구실에서 모델 학습에 일반 컴퓨터 GPU와 A100을 써본 경험이 있다.

모델 학습에 파라미터를 조금씩 바꾸어 수십 번을 테스트해 보곤 했는데, 학교의 GPU 클러스터의 자원이 모자라 실행을 위해 몇 시간씩 대기하기도 했다.

 

 

그런데 A100이 성능이 훨씬 좋았지만 결국, 학습에 소요되는 시간은 얼추 비슷했던 것 같다.

일반적인 모델 학습이 성능을 100% 끌어내지 못 한듯 하다. (혹은 아래에서 알아볼 MIG 때문일지도 모른다.)

 

 

그렇기에 GPU 성능을 끌어낼 수 있도록 코드적인 수정이 필요하거나, 유휴 GPU 자원을 활용하는 방안이 필요하다. 

이를 위해 활용되는 MIG와 vGPU 기술에 대해 알아보자.

 

 

 


MIG(Multi-Instance GPU)

 

MIG는 GPU를 독립적인 여러 인스턴스로 분할하여 사용하는 가상화 기술이다.

 

NVIDIA의 A100은 Ampere 아키텍처로 설계되어, MIG 가상화를 지원한다.

MIG로 최대 7배 많은 GPU 인스턴스를  제공하기 때문에 자원 활용률이 중요한 CSP에서 특히 활용하기 좋다.

각 인스턴스는 메모리, 캐시, 컴퓨팅 코어가 하드웨어 수준에서 완전 격리/보호된다.

따라서 각 인스턴스 별로 다른 유형의 워크로드를 수행할 수 있다.

 

또한 각 인스턴스는 필요에 따라 프로비저닝 까지 가능하다.

예를 들어 NVIDIA A100 40GB는 20GB 메모리의 인스턴스 2개를 생성하거나 10GB인 인스턴스 2개와 5GB 인스턴스 4개를 생성할 수 있다.

특히 동적으로 GPU 리스소스를 전환할 수 있으므로 다양한 수요에 대처할 수 있다.

 

 

출처: https://blogs.nvidia.co.kr/blog/multi-instance-gpus/

 

 

 

 

 

vGPU(Virtual GPU)

vGPU는 방식은 CPU 가상화와 유사하다.

하이퍼바이저들은 VM 별로 CPU 사용 시간을 나누어 제공하는 time-shared 방식으로 vCPU를 제공한다. 

 

이때 GPU 메모리를 작업 전환마다 다시 적제한다면 오버헤드가 굉장히 많이 발생할 것이다.

따라서  GPU 메모리는 각 vGPU마다 전용 구간을 나누어 가지고, 컴퓨팅 리소스는 time-shared 방식으로 시간을 나누어 실행하게 된다.

 

 

vGPU 소프트웨어는 하이퍼바이저와 함께 가상화 계층에 설치되어 vCPU처럼 vGPU를 제공한다.

 

https://www.nvidia.com/ko-kr/data-center/virtualization/it-management/

 

 

MIG는 하이퍼바이저 뿐만 아니라 베어메탈 서버에서도 GPU를 나누어 쓸 수 있다.

그러므로 활용성 자체는 MIG가 좋지만, NVIDIA GPU에서만 지원되므로 의존성이 높다.

 

 

 

 

 

 

 

 

참조

https://byounghee.me/2023/04/20/gpu-%EC%9A%A9%EC%96%B4%EC%82%AC%EC%A0%84-part1-vgpu-%EC%99%80-mig/

https://blogs.nvidia.co.kr/blog/multi-instance-gpus/

https://www.nvidia.com/ko-kr/data-center/virtualization/it-management/

 

 

반응형

'CS > 하드웨어' 카테고리의 다른 글

Geforce VS Quador (FP64, FP32 ,FP16, BF16)  (0) 2025.03.11
AI에 GPU가 필요한 이유와 CUDA에 대해서  (0) 2025.03.07
댓글
반응형
인기글
Total
Today
Yesterday
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함