[python] PySpark 자주 쓰는 기능 정리
·
카테고리 없음
PySpark는 대용량 데이터를 다룰 때 효과적인 분산 처리 프레임워크이다. 이 글에서는 JSON 데이터 처리와 관련된 PySpark의 자주 쓰는 기능과 메서드를 중심으로 실무에서 어떻게 활용할 수 있는지 정리한다.PySpark는 왜 SQL이 아닌 함수형 처리 방식으로 사용하나?PySpark에서는 SQL처럼 한 줄로 복잡한 쿼리를 작성하는 대신, 테이블을 불러와 단계적으로 처리하는 방식이 일반적이다. 이런 방식은...복잡한 로직을 분리해서 디버깅이 용이하다.컬럼 단위 조작이 자유롭고, 재사용성이 높다.중간 단계의 데이터를 쉽게 확인하고 튜닝할 수 있다.와 같은 장점이 있다고 한다.따라서 실무에서는 SQL 쿼리 하나로 모든 작업을 끝내기보다는, 아래와 같이 단계별 처리 방식으로 작성하는 코드 스타일이 더 ..