
[Ray] 분산 실행 프레임워크 Ray 설명
·
💻 Programming/Distributed Computing
RayRay는 범용 분산 실행 프레임워크이다. 기존의 분산 시스템은 ETL, 학습, 서빙처럼 목적에 따라 서로 다른 도구를 사용해야 했다. 하지만 Ray는 단일 프레임워크 안에서 데이터 전처리(Ray Data), 분산 학습(Ray Train), 하이퍼파라미터 최적화(Ray Tune), 모델 서빙(Ray Serve)를 모두 지원한다. Ray는 Uber에서 내부 분산 강화학습 플랫폼으로 시작했으며, 현재는 다양한 기업에서 대규모 ML 학습, 서빙, 실험 자동화에 활용되고 있다. 특히 GPU 스케줄링과 동적 리소스 관리 기능이 뛰어나, 수십~수백 개의 노드와 GPU를 다루는 환경에서 많이 쓰인다.1. Ray Core 개념1.1 TaskRay에서 Task는 분산 실행의 기본 단위이다. Python 함수에 @r..