[PySpark] Spark Job 실행 가이드: Ad-hoc vs Batch
·
💻 Programming/Distributed Computing
1. Spark Job의 개념Spark에서 Action 연산(collect(), count(), saveAsTable() 등)이 호출되면 내부적으로 Job이 생성된다. Job은 DAG(Directed Acyclic Graph)로 쪼개져 Stage와 Task로 나뉘어 클러스터의 Executor에서 병렬 실행된다. 즉, Job은 Spark 클러스터에 제출되어 실행되는 단위 작업이다. 주피터 노트북 환경에서 PySpark로 코드를 작성하고 실행하는 경우에도 마찬가지로 Spark Job이 실행된다. 노트북 서버는 단순히 드라이버(Driver) 역할을 하며, 실제 데이터 처리는 클러스터의 Executor에서 수행된다. 따라서 사용자는 노트북에서 코드를 실행하는 것처럼 보이지만, 내부적으로는 동일하게 Spark ..