[python] 파이썬 병렬 처리 | joblib 사용법 | 멀티프로세싱

joblib은 파이썬에서 병렬 처리를 간편하게 수행할 수 있도록 도와주는 라이브러리이다.

Parallel 클래스

Parallel 클래스는 병렬로 함수를 실행하거나 반복 가능한 작업을 처리할 때 사용

- n_jobs

n_jobs 매개변수를 사용하여 동시에 실행할 작업의 수를 조절할 수 있으며 일반적으로 CPU의 코어 수를 사용하면 효과적이다.
n_jobs=-1은 시스템에서 사용 가능한 모든 코어를 활용하여 최대한 병렬로 실행하라는 의미

- backend

백엔드는 어떻게 병렬 작업을 처리할지를 결정하는 핵심 역할을 하며, loky 백엔드가 기본적으로 사용된다.
loky (기본 백엔드)
- loky는 파이썬의 concurrent.futures를 기반으로 하는 백엔드로, 멀티프로세싱을 활용
- 프로세스 풀링을 통해 효율적인 작업 분배를 하며, GIL(Global Interpreter Lock)을 피하여 CPU-bound 작업에서 효과적이다.
- I/O-bound 작업에서도 효과적으로 활용될 수 있다.

threading (멀티쓰레딩)
- threading 백엔드는 파이썬의 내장 threading 모듈을 이용하여 멀티쓰레딩을 구현한다.
- 파이썬의 GIL 때문에 실제로 CPU-bound 작업에서의 성능 향상은 한계가 있다.
- I/O-bound 작업에서 효과적

multiprocessing (멀티프로세싱)
- multiprocessing 백엔드는 파이썬의 내장 multiprocessing 모듈을 이용하여 멀티프로세싱을 구현한다.
- 각각의 작업을 별도의 프로세스에서 실행하므로 GIL에 영향을 받지 않고, CPU-bound 작업에서 성능 향상을 기대할 수 있다.
- 그러나 프로세스 간 통신의 오버헤드가 있을 수 있다.

delayed 함수

delayed 함수는 함수를 지연시켜 실행하는 역할을 한다.
각 작업이 비동기적으로 실행되므로 결과를 기다리지 않고 다음 작업을 시작할 수 있다.
특히, I/O-bound 작업에서 성능을 향상시키는 데 도움이 된다.

joblib를 이용한 병렬처리 방법

1. 병렬로 실행할 함수 정의

def process_data(data):
    # 작업을 수행하고 결과를 반환하는 함수
    result = data * 2
    return result

2. Parallel 클래스 호출

data_list = [1, 2, 3, 4, 5]
results = Parallel(n_jobs=-1, backend="loky")(delayed(process_data)(data) for data in data_list)

Parallel 클래스에서 n_jobs, backend 선택
병렬로 실행할 함수에 delayed() 함수 적용

아주 간단한 사용 방법이다 !

# 코드 예시 : I/O-bound 작업

from joblib import Parallel, delayed
import time

# 데이터 처리 함수 (I/O-bound 작업)
def io_bound_task(data):
    time.sleep(1)  # 가정: 1초 동안 I/O 작업 수행
    return data

# 데이터 리스트
data_list = [1, 2, 3, 4, 5]

# 싱글 쓰레드로 처리하는 경우
start_time_single = time.time()

results_single_io = [io_bound_task(data) for data in data_list]

end_time_single = time.time()
elapsed_time_single = end_time_single - start_time_single

print("Using Single Thread (I/O-bound Task):")
print(f"Results: {results_single_io}")
print(f"Elapsed Time: {elapsed_time_single} seconds\n")

# 멀티쓰레딩으로 처리하는 경우 (threading 백엔드 사용)
start_time_multi_io = time.time()

results_multi_io = Parallel(n_jobs=-1, backend="threading")(delayed(io_bound_task)(data) for data in data_list)

end_time_multi_io = time.time()
elapsed_time_multi_io = end_time_multi_io - start_time_multi_io

print("Using Multi-Threading (threading backend - I/O-bound Task):")
print(f"Results: {results_multi_io}")
print(f"Elapsed Time: {elapsed_time_multi_io} seconds")

I/O-bound 작업에서는 loky 백엔드 또는 threading 백엔드를 사용하면 처리 시간을 줄일 수 있음
위 예시 코드에서는 threading 백엔드를 사용하는 것이 조금 더 빨랐음

# 코드 예시 : CPU-bound 작업

from joblib import Parallel, delayed
import time

# CPU-bound 작업 함수
def cpu_bound_task(number):
    result = 0
    for _ in range(10**7):  # 대략적으로 1천만 번 반복하는 계산
        result += number ** 2
    return result

# 작업할 데이터 리스트
data_list = [1, 2, 3, 4, 5]

# 병렬 처리하지 않을 때의 시간 측정
start_time_serial = time.time()
results_serial = [cpu_bound_task(data) for data in data_list]
end_time_serial = time.time()
elapsed_time_serial = end_time_serial - start_time_serial

print("Without Parallel Processing:")
print(f"Results: {results_serial}")
print(f"Elapsed Time: {elapsed_time_serial} seconds\n")

# 병렬 처리할 때의 시간 측정
start_time_parallel = time.time()
results_parallel = Parallel(n_jobs=-1, backend="loky")(delayed(cpu_bound_task)(data) for data in data_list)
end_time_parallel = time.time()
elapsed_time_parallel = end_time_parallel - start_time_parallel

print("Using Parallel Processing:")
print(f"Results: {results_parallel}")
print(f"Elapsed Time: {elapsed_time_parallel} seconds")

CPU-bound 작업에서는 파이썬의 GIL을 피할 수 있는 loky 백엔드를 사용하는 것이 효율적
threading 백엔드를 사용하는 경우 처리시간이 줄어들지 않았음

'💻 Programming > Python' 카테고리의 다른 글

[python] 파이썬 클린 코드 작성 꿀팁 8가지 : 더 깔끔하고 가독성 높은 코드 작성하기! (0)	2024.07.11
[python] Streamlit 으로 데이터 웹 애플리케이션 만들기! \| 간단한 대시보드 & 웹데모 페이지 개발 (1)	2024.07.08
[python] 멀티프로세싱 Process 사용법 및 코드 예시 \| multiprocessing.Process \| 여러 프로세스에 서로 다른 작업을 할당 (3)	2024.01.07
[python] 멀티프로세싱 Pool 사용법 및 코드 예시 \| multiprocessing.Pool \| python 속도 향상 (0)	2024.01.07
[pandas] 특정 컬럼에서 특정 문자열이 포함된 행 찾기 \| str.contains (0)	2023.11.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[python] 파이썬 병렬 처리 | joblib 사용법 | 멀티프로세싱 | 멀티쓰레딩

joblib를 이용한 병렬처리 방법

'💻 Programming > Python' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역