GPU 클러스터: SuperPOD와 Slurm의 개념과 활용법

뭅즤 2025. 7. 3. 20:24

📌 GPU 클러스터란 무엇인가?

GPU 클러스터는 여러 대의 GPU 서버를 고속 네트워크로 연결하여 하나의 시스템처럼 사용하는 컴퓨팅 환경이다. 최근 AI 모델들은 규모가 점점 커지고 복잡해지고 있어, 단일 GPU만으로는 효율적인 학습이 어려워졌다. 이때 GPU 클러스터는 여러 GPU의 자원을 동시에 활용하여 빠르고 효과적으로 AI 모델을 학습할 수 있도록 한다.

예를 들어, OpenAI의 GPT-4나 Meta의 LLaMA와 같은 초거대 모델들은 수백에서 수천 개의 GPU를 동시에 활용하여 학습된다. 이러한 초거대 모델 학습 환경이 바로 GPU 클러스터 환경이다.

📌 NVIDIA SuperPOD란?

NVIDIA SuperPOD는 NVIDIA가 제공하는 초고성능 GPU 클러스터 시스템이다. 일반적인 GPU 서버 여러 대를 단순히 묶은 것이 아니라, 고속 통신을 위한 NVLink와 InfiniBand와 같은 특수 네트워크 기술을 활용하여 GPU 간의 빠른 데이터 통신을 가능하게 한다.

특히 SuperPOD는 대규모 AI 학습에 최적화된 환경으로, NVIDIA A100 또는 최신의 H100 GPU 수백 대를 동시에 연결하여 사용한다. 각 GPU 간 데이터 교환 속도가 매우 빨라 모델 학습의 효율성을 극대화하며, 대규모 모델을 효과적으로 학습할 수 있게 지원한다. NVIDIA SuperPOD는 이미 OpenAI의 GPT 모델과 같은 초거대 AI 모델의 학습에 활용되고 있으며, AI 모델 개발 및 연구를 위한 핵심 인프라로 자리잡았다.

- NVLink: NVIDIA가 개발한 고속 GPU 간 데이터 통신 기술로, GPU 메모리를 효율적으로 통합하여 병목 현상을 크게 줄여준다.
- InfiniBand: 데이터 센터 내 고성능 컴퓨팅(HPC) 및 클러스터 시스템에서 널리 사용하는 초고속 네트워크 기술로, 낮은 지연 시간과 높은 대역폭을 제공한다.

📌 Slurm이란?

Slurm(Simple Linux Utility for Resource Management)은 리눅스 기반의 오픈소스 자원 관리 및 작업 스케줄링 시스템이다. 클러스터 환경에서는 다양한 연구자나 엔지니어가 동시에 모델 학습을 요청하게 되는데, 이때 GPU와 CPU 등의 자원을 효율적으로 분배하여 작업을 관리하는 역할을 한다.

쉽게 말해, Slurm은 GPU 클러스터에서 '교통 경찰'과 같은 역할을 한다. 사용자가 제출한 작업(Job)을 받아서 언제 어떤 노드에서 실행할지 결정하고, 자원을 적절히 배분해 순서대로 처리한다.

Slurm을 사용하려면?

Slurm을 사용해 작업(아래 참고)을 제출하려면, 반드시 미리 GPU 클러스터가 구축된 상태여야 한다. 즉 물리적으로 GPU 서버(노드)들이 네트워크로 연결되어 있고, Slurm이 이를 관리하도록 설정된 환경이 필요하다.

AWS EC2를 단순히 여러 개 띄우고 SSH로 접속하는 것과는 다르다. Slurm을 사용하려면

여러 GPU 서버(노드)가 물리적·논리적으로 클러스터를 이뤄야 한다.
- 보통 같은 데이터센터 랙 내에서 InfiniBand 같은 고속 네트워크로 연결
모든 노드에 Slurm 데몬(slurmd)이 설치되어 Slurm 컨트롤러(slurmctld)와 통신하도록 구성되어 있어야 한다.
동일한 파일시스템(예: NFS)이 마운트되어 있어 작업 스크립트와 데이터, 라이브러리가 공유 가능해야 한다.

따라서 Slurm을 사용해 sbatch를 실행하려면 이런 클러스터가 이미 준비되어 있어야 한다. 사용자는 Slurm이 잘 구축된 클러스터 환경에 SSH로 접속해 sbatch를 통해 작업만 올리면 된다.

이와 대비되는 예로, 단순히 AWS EC2 여러 대를 띄워서 python train.py를 따로 실행하면 노드끼리 자동으로 협업하지 않는다. 이때는 수동으로 IP를 지정해 torch.distributed.launch 같은 스크립트를 돌려야 한다. 반면 Slurm은 이런 분산 학습 환경(IP, 포트, 프로세스 수)을 자동으로 세팅해 주기 때문에 훨씬 편리하다. 즉 Slurm은 단순한 스케줄러가 아니라, 이미 구축된 GPU 클러스터 위에서 자원을 할당하고 분산 학습의 프로세스를 자동으로 관리해 주는 핵심 도구이다.

Slurm으로 대규모 모델을 학습하기 위해 필요한 단계

1️⃣ Job 스크립트 작성하기

사용자는 먼저 Slurm에 제출할 작업을 bash 스크립트로 작성한다. 이 스크립트에는 몇 개의 GPU를 사용할지, 몇 개의 노드를 사용할지, 최대 얼마 동안 실행할지 등을 설정한다.

#!/bin/bash
#SBATCH --job-name=large_model_train  # 작업 이름
#SBATCH --nodes=2                     # 사용할 노드(서버) 개수
#SBATCH --gres=gpu:4                  # 노드당 GPU 개수 (총 8 GPU)
#SBATCH --ntasks-per-node=4           # 노드당 실행할 프로세스 수
#SBATCH --time=24:00:00               # 최대 실행 시간 (24시간)
#SBATCH --partition=gpu               # 사용할 파티션

module load cuda/12.1
module load python/3.11

srun python train_large_model.py

위 예시는 "총 8개의 GPU를 두 서버에 걸쳐 사용해 하루 동안 모델을 학습시켜라"는 의미다.

2️⃣ 작업 제출하기

sbatch train_job.sh

작성한 스크립트를 Slurm에 제출한다.

Slurm은 이 요청을 받고 적절한 시점과 노드를 결정하여 실행한다.

3️⃣ 작업 상태 모니터링하기

squeue -u username  # 본인 작업 조회

제출한 작업이 현재 어떤 상태인지 확인할 수 있다.

또는 특정 작업 ID의 상세 내역을 보고 싶다면

scontrol show job JOB_ID

4️⃣ 작업 취소하기

scancel JOB_ID

잘못 제출했거나 중단하고 싶을 때는 다음과 같이 취소한다.

5️⃣ 결과 확인하기

Slurm은 보통 slurm-JOBID.out 파일을 자동 생성해 표준 출력 로그를 남긴다. 여기서 학습 중 출력된 로그나 오류를 확인할 수 있다.

Slurm을 잘 사용하기 위해 알아야 할 것

module load를 통한 CUDA, Python 환경 설정 방법
srun을 이용한 분산 학습 실행 방식
ntasks, nodes, gres를 조합해 GPU/노드 병렬 구조를 설계하는 방법
--dependency 옵션 등을 활용해 선행 작업이 끝난 뒤 후속 작업을 자동으로 실행하기
NCCL, torch.distributed.launch와 같은 라이브러리와 Slurm의 연동 방식

이처럼 Slurm은 단순히 작업 제출만 하는 시스템이 아니라, 대규모 모델 학습에서 자원을 최적으로 활용하기 위해 꼭 숙지해야 할 핵심 도구이다.

분산학습 프레임워크 간단 정리

대규모 GPU 클러스터에서 Slurm을 통해 자원을 할당받은 뒤, 실제로 모델을 분산 학습시키는 데는 FSDP, Deepspeed, Pipeline Parallelism 같은 라이브러리를 사용한다.

FSDP는 PyTorch에서 제공하는 Fully Sharded Data Parallel 방식으로, 모델 파라미터를 GPU들에 나누어 올려 메모리 사용을 최소화한다.
Deepspeed는 마이크로소프트가 만든 프레임워크로 ZeRO, Offload, Pipeline 등 다양한 기술을 통해 초대규모 모델도 효율적으로 학습할 수 있게 한다.
Pipeline Parallelism은 모델의 layer를 여러 GPU에 파이프라인 형태로 분할해 순차적으로 학습하는 방식이다.

이들 프레임워크를 동시에 사용하는 것은 아니며, 모델과 환경에 맞게 적절히 하나를 선택해 적용한다. 즉 Slurm이 GPU 클러스터에서 자원을 할당해 주는 '교통 정리'를 한다면, FSDP, Deepspeed, Pipeline Parallelism은 그 자원 위에서 실제로 모델을 분산 학습시키는 '실행 엔진'이다.