[PySpark] 어디에, 왜 쓸까? | 대용량 데이터 전처리와 ML 활용 가이드

1. 개요

PySpark는 Apache Spark의 Python API이며, 대규모 데이터를 분산 환경에서 처리하기 위한 표준 도구이다. ML 리서치 엔지니어에게 PySpark는 판다스와 유사한 문법을 유지하면서도 클러스터 전체 자원을 활용해 확장된 처리를 가능하게 하는 점에서 유용하다. 이 글에서는 PySpark를 어디에, 왜 사용하는지, 그리고 실무자가 어떤 부분을 중점적으로 이해해야 하는지 설명한다.

2. PySpark는 어디에 쓰는가

PySpark는 데이터 엔지니어뿐만 아니라 ML 엔지니어에게도 데이터 준비와 전처리에 핵심 도구로 활용된다. 특히 대용량 데이터셋을 다룰 때 Pandas로는 처리하기 어려운 경우가 많아 PySpark가 필요하다. 데이터 분석과 ML 실험을 위해서는 빠르게 데이터를 가공하고 효율적으로 저장하는 것이 중요한데, PySpark는 이 과정을 분산 환경에서 안정적으로 수행할 수 있다.

실무에서 PySpark를 자주 활용하는 영역은 다음과 같다.

대규모 로그 및 메타데이터 전처리
학습/검증 데이터셋 생성과 스플릿
다중 조인 및 통계 집계
이미지/비디오 메타데이터 처리
인퍼런스 결과 대량 집계 및 지표 산출

3. PySpark를 왜 쓰는가

데이터와 ML 관점에서 PySpark의 가치는 크게 네 가지로 요약할 수 있다. 첫째, 확장성이다. 단일 머신 메모리를 초과하는 데이터도 클러스터에 분산하여 처리할 수 있다. 둘째, 최적화된 실행 엔진이다. Catalyst Optimizer와 Tungsten 실행 엔진을 통해 복잡한 조인과 집계를 효율적으로 수행할 수 있다. 셋째, 표준화된 생태계 연계성이다. Parquet, ORC 같은 포맷과 Hive Metastore, Presto/Trino 같은 분석 툴과 매끄럽게 연동된다. 넷째, 개발 편의성이다. 판다스와 유사한 API와 SQL 혼용이 가능해 Python 중심 워크플로우에 자연스럽게 녹아든다.

핵심 장점을 정리하면 다음과 같다.

확장 가능한 분산 처리
Catalyst Optimizer 기반 성능 최적화
표준 포맷 및 데이터 생태계 연동
Python 친화적 API와 개발 편의성

4. 실무자가 알아야 할 PySpark 동작 원리

ML 엔지니어에게 중요한 것은 Spark 내부 아키텍처 전체가 아니라, 데이터를 어떻게 다루고 최적화해야 하는지에 대한 기본 원리이다.

Lazy evaluation: Transformation은 즉시 실행되지 않고 Action 호출 시 Job이 실행된다.
- 중간 결과를 점검할 때는 show(), count() 같은 가벼운 Action만 사용
- 여러 번 재사용할 DataFrame은 cache()나 persist() 후 한 번만 Action으로 물리화
Job → Stage → Task 구조: 조인이나 집계 같은 연산은 셔플을 발생시키며 Stage로 분리된다.
- 필터/컬럼 선택은 조인 전에 적용해 셔플 전에 데이터량 최소화
- 작은 참조 테이블은 broadcast() 조인으로 셔플 줄이기
Narrow vs Wide Transformation: map, filter는 셔플이 없지만, groupBy, join은 셔플을 유발한다.
- wide 연산(집계/조인)은 최대한 앞단에서 데이터 줄인 뒤 실행
Partition과 파일 크기 관리: Parquet 출력은 128~512MB 파일 크기를 권장한다.
- 결과 저장 전 repartition()으로 파티션 수 조정
- 작은 파일이 많아지면 coalesce()로 병합
- 출력 크기에 맞춰 적절한 파티션 수 산정 (예: 200GB ÷ 256MB ≈ 800 파티션)

이 원리들을 이해하면 불필요한 셔플과 작은 파일 문제를 줄이고, 성능 저하를 예방할 수 있다.

5. 실무 활용 예시

PySpark는 데이터 준비 파이프라인에서 실용적으로 쓰인다. 예를 들어, RDS 같은 DB에서 원천 데이터를 읽어와 학습용 데이터셋을 생성하는 과정을 생각해보자.

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, broadcast, expr

spark = (SparkSession.builder.appName("etl-orders").getOrCreate())

# 1. 데이터 읽기 (JDBC)
orders = (spark.read.format("jdbc")
  .option("url", JDBC_URL)
  .option("dbtable","orders")
  .option("user", DB_USER)
  .option("password", DB_PASS)
  .option("partitionColumn","id")
  .option("lowerBound",1).option("upperBound",10_000_000).option("numPartitions",128)
  .load()
  .select("id","user_id","category_id","price","created_at")
  .filter(col("created_at") >= expr("date_sub(current_date(), 30)")))

# 2. 참조 데이터 읽기 (Parquet)
cats = spark.read.parquet("s3://bucket/dim/categories/").select("id","display_name")

# 3. 조인과 전처리
joined = (orders.alias("o")
  .join(broadcast(cats.alias("c")), col("o.category_id") == col("c.id"), "left")
  .select(col("o.*"), col("c.display_name").alias("category")))

# 4. 집계 및 저장
mart = (joined.groupBy("category")
  .agg(expr("count(*) as n"), expr("avg(price) as avg_price"), expr("sum(price) as revenue"))
  .orderBy(col("revenue").desc()))

(mart.repartition(64)
  .write.mode("overwrite")
  .parquet("s3://bucket/mart/orders_30d/"))

spark.stop()

이 예시는 DB에서 데이터 읽기 → 조인 및 전처리 → 집계 → Parquet 저장까지 이어지는 전형적인 ML 데이터 준비 워크플로우이다. 노트북에서 먼저 샘플 데이터를 확인하고, 검증된 코드를 spark-submit으로 제출해 전체 데이터를 처리하는 방식으로 활용할 수 있다.

6. 결론

PySpark는 Data / ML 엔지니어가 대규모 데이터를 안정적으로 전처리하고 학습 데이터셋을 구성할 때 필수적인 도구이다. 판다스의 직관성과 Spark의 확장성을 결합해, 데이터 준비 단계에서 병목을 줄이고 연구와 실험에 집중할 수 있도록 돕는다. 중요한 것은 DataFrame API와 기본 최적화 원리를 숙지하고, 이를 기반으로 학습 파이프라인을 안정적으로 실행할 수 있는 수준까지 익히는 것이다.

'💻 Programming > Distributed Computing' 카테고리의 다른 글

[Ray] 분산 실행 프레임워크 Ray 설명 (0)	2025.09.17
[PySpark] Spark Job 실행 가이드: Ad-hoc vs Batch (0)	2025.09.17
[PySpark] 주요 연산 가이드: Transformation, Action (0)	2025.09.16
[PySpark] 성능 최적화 기본기: 대규모 데이터 처리를 위해 (0)	2025.09.16
[PySpark] 자주 쓰는 기능 메서드 정리 (0)	2025.05.12

1. 개요

2. PySpark는 어디에 쓰는가

3. PySpark를 왜 쓰는가

4. 실무자가 알아야 할 PySpark 동작 원리

5. 실무 활용 예시

6. 결론

'💻 Programming > Distributed Computing' 카테고리의 다른 글

티스토리툴바