본문 바로가기
728x90

airflow4

[Airflow] 에어플로우 설치 및 웹 인터페이스 실행하기 1. Airflow 설치 pip install apache-airflow 2. Airflow 설정 cd airflow airflow db init mkdir dags 만들어진 airflow 폴더로 들어가서 db를 init 해주고 dags 폴더를 생성 airflow users create -u admin -p admin -f Clueless -l Coder -r Admin -e admin@admin.com 관리자 계정 생성 3. Airflow 실행 airflow webserver -p 8080 8080 포트로 에어플로우 실행 'localhost:8080' 로 접속 4. Airflow 웹 인터페이스 Apache Airflow 웹서버는 Airflow 워크플로우의 시각화, 모니터링 및 관리를 위한 사용자 인터페.. 2023. 11. 20.
[Airflow] 쉘 스크립트, 명령어 실행하기 | BashOperator 사용 BashOperator는 Apache Airflow에서 쉘 스크립트나 명령어를 실행하는 작업을 정의하는 데 사용되는 연산자이다. 이를 통해 외부 프로그램, 스크립트 또는 명령어를 실행하고 결과를 확인할 수 있다. 다음은 BashOperator를 사용하는 간단한 예제로, 간단한 Bash 스크립트를 실행하고 출력을 로깅한다. from airflow import DAG from airflow.operators.bash_operator import BashOperator from datetime import datetime, timedelta # DAG 정의 dag = DAG( 'bash_operator_example', description='Example DAG with BashOperator', sched.. 2023. 11. 19.
[Airflow] 일정한 간격으로 DAG 실행하기 (스케줄링) | schedule_interval | cron 기반 스케줄 Apache Airflow에서 DAG을 일정한 간격으로 실행하려면 schedule_interval 매개변수를 사용한다. 이 매개변수는 DAG이 실행될 주기를 나타내고, 주기는 timedelta 객체로 정의된다. 예를 들어, 매일 실행하려면 timedelta(days=1)과 같이 정의할 수 있다. timedelta를 사용하는 몇 가지 예제를 살펴보자. timedelta # 매일 실행 schedule_interval=timedelta(days=1) # 3일마다 실행 schedule_interval=timedelta(days=3) # 매주 월요일 실행 schedule_interval=timedelta(weeks=1, days=1) # 매시간 실행 schedule_interval=timedelta(hours=1.. 2023. 11. 19.
[Airflow] Airflow & DAG 설명 Apache Airflow Apache Airflow는 데이터 파이프라인을 관리하고 스케줄링하기 위한 오픈 소스 플랫폼이다. Airflow는 파이썬 코드를 이용해 파이프라인을 구현할 수 있기에 파이썬 언어로 구현할 수 있는 대부분의 방법을 사용하여 여러 커스텀 파이프라인을 만들 수 있다. 또한 쉽게 확장 가능하고 다양한 시스템과 통합이 가능하다. 수많은 스케줄링 기법으로 파이프라인을 정기적으로 실행하고 점진적 처리가 가능하고 오픈 소스라는 장점이 있기 때문에 많은 기업에서 Airflow를 사용하고 있다. (데이터 파이프라인은 데이터 처리 작업을 조직하고 실행하기 위한 일련의 단계 및 프로세스) Apache Airflow의 특징 스케줄링과 모니터링 Airflow는 작업을 스케줄링하고 감시하는 데 사용됨 예.. 2023. 11. 19.
728x90