본문 바로가기

추천 검색어

실시간 인기 검색어

Apache Airflow 기반의 데이터 파이프라인

I♥Cloud 제이펍의 클라우드 시리즈 22
제이펍 · 2022년 03월 16일
10.0 (18개의 리뷰)
집중돼요 (54%의 구매자)
  • Apache Airflow 기반의 데이터 파이프라인 대표 이미지
    Apache Airflow 기반의 데이터 파이프라인 대표 이미지
  • A4
    사이즈 비교
    210x297
    Apache Airflow 기반의 데이터 파이프라인 사이즈 비교 188x245
    단위 : mm
MD의 선택 무료배송 이벤트 소득공제
10% 32,400 36,000
적립/혜택
1,800P

기본적립

5% 적립 1,800P

추가적립

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 1,800P
  • 리뷰 작성 시, e교환권 추가 최대 300원
배송안내
무료배송
배송비 안내
국내도서/외국도서
도서만 15,000원 이상 구매 시 무료배송
도서+교보Only(교보배송)을 함께 15,000원 이상 구매 시 무료배송

15,000원 미만 시 2,500원 배송비 부과

교보Only(교보배송)
각각 구매하거나 함께 20,000원 이상 구매 시 무료배송

20,000원 미만 시 2,500원 배송비 부과

해외주문 서양도서/해외주문 일본도서(교보배송)
각각 구매하거나 함께 15,000원 이상 구매 시 무료배송

15,000원 미만 시 2,500원 배송비 부과

업체배송 상품(전집, GIFT, 음반/DVD 등)
해당 상품 상세페이지 "배송비" 참고 (업체 별/판매자 별 무료배송 기준 다름)
바로드림 오늘배송
업체에서 별도 배송하여 1Box당 배송비 2,500원 부과

1Box 기준 : 도서 10권

그 외 무료배송 기준
바로드림, eBook 상품을 주문한 경우, 플래티넘/골드/실버회원 무료배송쿠폰 이용하여 주문한 경우, 무료배송 등록 상품을 주문한 경우
주문정보를 불러오는 중입니다.
서울시 종로구 종로 1

해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

패키지

북카드

키워드 Pick

키워드 Pick 안내

관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.

Apache Airflow 기반의 데이터 파이프라인 상세 이미지
Airflow 설치부터 파이프라인 작성, 테스트, 분석, 백필
그리고 배포 및 관리까지를 한 권으로 해결!
이 책은 효과적인 데이터 파이프라인을 만들고 유지하는 방법을 설명하고 있으며, 이를 통해 여러분은 다양한 데이터 소스의 집계, 데이터 레이크와의 연결 및 클라우드 배포를 포함해서 가장 일반적인 사용법을 확인할 수 있습니다. 각 장의 설명과 튜토리얼 형태의 실용적인 가이드를 통해, Airflow를 구동하는 방향성 비순환 그래프(DAG)의 모든 내용과 요구사항에 맞게 파이프라인을 커스터마이징하는 방법을 다룹니다.
이 책은 중급 이상의 파이썬 스킬을 보유한 데브옵스 엔지니어, 데이터 엔지니어, 머신러닝 엔지니어, 그리고 시스템 관리자를 위한 책입니다.

주요 내용
■ Airflow 파이프라인을 DAG로 빌드하고 테스트하여 배포하는 방법
■ 데이터 이동 및 변환을 자동화하는 방법
■ 백필을 사용하여 과거 이력 데이터셋을 분석하는 방법
■ 커스텀 컴포넌트의 개발 방법
■ 운영 환경에서의 Airflow 구성 방법

작가정보

저자(글) 바스 하렌슬락

(Bas Harenslak)
네덜란드 암스테르담에 위치한 데이터 기반 솔루션을 개발하는 GoDataDriven의 데이터 엔지니어다. 소프트웨어 공학과 컴퓨터 과학에 대한 지식이 많은 그는 소프트웨어 개발이나 데이터 작업을 마치 어려운 퍼즐을 푸는 것처럼 즐겁게 한다. 오픈 소스 소프트웨어 작업을 선호하며, Apache Airflow 프로젝트의 기여자이자 암스테르담 Airflow 모임의 공동 주최자다.

저자(글) 율리안 더라위터르

(Julian de Ruiter)
컴퓨터 및 생명 과학을 전공하고 전산 종양생물학 박사 학위를 지닌 머신러닝 엔지니어다. 경험이 풍부한 소프트웨어 개발자이기도 한 그는 클라우드 및 오픈 소스 소프트웨어를 사용하여 프로덕션에 유용한 머신러닝 솔루션을 개발하고, 데이터 과학 및 데이터 엔지니어링 세계를 연결하는 것을 즐긴다. 여가 시간에는 자신의 파이썬 패키지를 개발하고 오픈 소스 프로젝트에 기여하거나 전자제품 수선하기를 좋아한다.

번역 김정민

분산 처리 기술을 이용한 음악과 영상 서비스의 스트리밍 솔루션 개발자로 출발해, 20년간 대기업과 스타트업에서 서비스를 운영해 왔다. 또한, 클라우드 기술 등장 후에는 다양한 프로젝트에서 클라우드 아키텍트, 데이터 엔지니어, MLOps 엔지니어 업무를 수행했다. 현재는 프롭테크 스타트업에서 새로운 모험에 도전하고 있다.

번역 문선홍

25년간 다양한 분야에서 소프트웨어를 개발하고 서비스를 운영했으며, 현재는 빅데이터 플랫폼 및 AI 기반 데이터 분석 업무를 진행하고 있다. 빅데이터 기반의 데이터 분석을 위한 다양한 클라우드 기술과 오픈 소스 기술을 연구하고 있고, 데이터 사이언티스트로서 데이터의 관리부터 유용한 정보 분석, AI 모델 개발 및 검증, AI 분석 플랫폼 구축까지의 업무를 다루고 있다.

목차

  • 옮긴이 머리말 xiii
    번역서 추천사 xv
    베타리더 후기 xvii
    원서 추천사 xix
    시작하며 xx
    감사의 글 xxii
    이 책에 대하여 xxiv
    표지에 대하여 xxviii

    PART I 기본편
    CHAPTER 1 Apache Airflow 살펴보기 3
    1.1 데이터 파이프라인 소개 4
    1.1.1 데이터 파이프라인 그래프 4
    1.1.2 파이프라인 그래프 실행 6
    1.1.3 그래프 파이프라인과 절차적 스크립트 파이프라인 비교 7
    1.1.4 워크플로 매니저를 이용한 파이프라인 실행 9
    1.2 Airflow 소개 10
    1.2.1 파이썬 코드로 유연한 파이프라인 정의 10
    1.2.2 파이프라인 스케줄링 및 실행 11
    1.2.3 모니터링과 실패 처리 13
    1.2.4 점진적 로딩 및 백필 16
    1.3 언제 Airflow를 사용해야 할까 16
    1.3.1 Airflow를 선택하는 이유 17
    1.3.2 Airflow가 적합하지 않은 경우 17
    1.4 이후 내용 18
    요약 19

    CHAPTER 2 Airflow DAG의 구조 20
    2.1 다양한 소스에서 데이터 수집 21
    2.1.1 데이터 탐색 21
    2.2 첫 번째 Airflow DAG 작성 23
    2.2.1 태스크와 오퍼레이터 차이점 27
    2.2.2 임의 파이썬 코드 실행 27
    2.3 Airflow에서 DAG 실행하기 30
    2.3.1 파이썬 환경에서 Airflow 실행 30
    2.3.2 도커 컨테이너에서 Airflow 실행하기 31
    2.3.3 Airflow UI 둘러보기 32
    2.4 스케줄 간격으로 실행하기 36
    2.5 실패한 태스크에 대한 처리 37
    요약 40

    CHAPTER 3 Airflow의 스케줄링 41
    3.1 예시: 사용자 이벤트 처리하기 41
    3.2 정기적으로 실행하기 43
    3.2.1 스케줄 간격 정의하기 43
    3.2.2 Cron 기반의 스케줄 간격 설정하기 45
    3.2.3 빈도 기반의 스케줄 간격 설정하기 47
    3.3 데이터 증분 처리하기 48
    3.3.1 이벤트 데이터 증분 가져오기 48
    3.3.2 실행 날짜를 사용하여 동적 시간 참조하기 49
    3.3.3 데이터 파티셔닝 51
    3.4 Airflow의 실행 날짜 이해 53
    3.4.1 고정된 스케줄 간격으로 태스크 실행 53
    3.5 과거 데이터 간격을 메꾸기 위해 백필 사용하기 56
    3.5.1 과거 시점의 작업 실행하기 56
    3.6 태스크 디자인을 위한 모범 사례 57
    3.6.1 원자성 57
    3.6.2 멱등성 59
    요약 60

    CHAPTER 4 Airflow 콘텍스트를 사용하여 태스크 템플릿 작업하기 62
    4.1 Airflow로 처리할 데이터 검사하기 62
    4.1.1 증분 데이터를 적재하는 방법 결정하기 63
    4.2 태스크 콘텍스트와 Jinja 템플릿 작업 65
    4.2.1 오퍼레이터의 인수 템플릿 작업 65
    4.2.2 템플릿에 무엇이 사용 가능할까요? 67
    4.2.3 PythonOperator 템플릿 70
    4.2.4 PythonOperator에 변수 제공 75
    4.2.5 템플릿의 인수 검사하기 76
    4.3 다른 시스템과 연결하기 78
    요약 86

    CHAPTER 5 태스크 간 의존성 정의하기 87
    5.1 기본 의존성 유형 88
    5.1.1 선형 의존성 유형 88
    5.1.2 팬인/팬아웃(Fan-in/Fan-out) 의존성 89
    5.2 브랜치하기 92
    5.2.1 태스크 내에서 브랜치하기 92
    5.2.2 DAG 내부에서 브랜치하기 94
    5.3 조건부 태스크 99
    5.3.1 태스크 내에서 조건 99
    5.3.2 조건부 태스크 만들기 100
    5.3.3 내장 오퍼레이터 사용하기 102
    5.4 트리거 규칙에 대한 추가 정보 102
    5.4.1 트리거 규칙이란? 103
    5.4.2 실패의 영향 104
    5.4.3 기타 트리거 규칙 104
    5.5 태스크 간 데이터 공유 106
    5.5.1 XCom을 사용하여 데이터 공유하기 106
    5.5.2 XCom 사용 시 고려사항 109
    5.5.3 커스텀 XCom 백엔드 사용하기 110
    5.6 Taskflow API로 파이썬 태스크 연결하기 111
    5.6.1 Taskflow API로 파이썬 태스크 단순화하기 111
    5.6.2 Taskflow API를 사용하지 않는 경우 113
    요약 115

    PART II 중급편
    CHAPTER 6 워크플로 트리거 119
    6.1 센서를 사용한 폴링 조건 120
    6.1.1 사용자 지정 조건 폴링 123
    6.1.2 원활하지 않는 흐름의 센서 처리 124
    6.2 다른 DAG를 트리거하기 127
    6.2.1 TriggerDagRunOperator로 백필 작업 131
    6.2.2 다른 DAG의 상태를 폴링하기 132
    6.3 REST/CLI를 이용해 워크플로 시작하기 135
    요약 138

    CHAPTER 7 외부 시스템과 통신하기 139
    7.1 클라우드 서비스에 연결하기 140
    7.1.1 추가 의존성 패키지 설치하기 141
    7.1.2 머신러닝 모델 개발하기 142
    7.1.3 외부 시스템을 사용하여 개발하기 147
    7.2 시스템 간 데이터 이동하기 155
    7.2.1 PostgresToS3Operator 구현하기 156
    7.2.2 큰 작업을 외부에서 수행하기 160
    요약 162

    CHAPTER 8 커스텀 컴포넌트 빌드 163
    8.1 PythonOperator로 작업하기 164
    8.1.1 영화 평점 API 시뮬레이션하기 164
    8.1.2 API에서 평점 데이터 가져오기 167
    8.1.3 실제 DAG 구축하기 170
    8.2 커스텀 훅 빌드하기 173
    8.2.1 커스텀 훅 설계하기 173
    8.2.2 MovielensHook로 DAG 빌드하기 179
    8.3 커스텀 오퍼레이터 빌드하기 181
    8.3.1 커스텀 오퍼레이터 정의하기 182
    8.3.2 평점 데이터를 가져오기 위한 오퍼레이터 빌드하기 183
    8.4 커스텀 센서 빌드하기 187
    8.5 컴포넌트 패키징하기 190
    8.5.1 파이썬 패키지 부트스트랩 작업하기 191
    8.5.2 패키지 설치하기 194
    요약 195

    CHAPTER 9 테스트하기 197
    9.1 테스트 시작하기 198
    9.1.1 모든 DAG에 대한 무결성 테스트 198
    9.1.2 CI/CD 파이프라인 설정하기 205
    9.1.3 단위 테스트 작성하기 207
    9.1.4 Pytest 프로젝트 구성하기 209
    9.1.5 디스크의 파일로 테스트하기 214
    9.2 테스트에서 DAG 및 태스크 콘텍스트로 작업하기 216
    9.2.1 외부 시스템 작업 222
    9.3 개발을 위해 테스트 사용하기 229
    9.3.1 DAG 완료 테스트하기 232
    9.4 Whirl을 이용한 프로덕션 환경 에뮬레이션 233
    9.5 DTAP 환경 생성하기 233
    요약 234

    CHAPTER 10 컨테이너에서 태스크 실행하기 235
    10.1 다양한 오퍼레이터를 쓸 때 고려해야 할 점 235
    10.1.1 오퍼레이터 인터페이스 및 구현하기 236
    10.1.2 복잡하며 종속성이 충돌하는 환경 236
    10.1.3 제네릭 오퍼레이터 지향하기 237
    10.2 컨테이너 소개하기 238
    10.2.1 컨테이너란 무엇인가? 238
    10.2.2 첫 도커 컨테이너 실행하기 239
    10.2.3 도커 이미지 생성하기 240
    10.2.4 볼륨을 사용하여 데이터를 유지하기 243
    10.3 컨테이너와 Airflow 245
    10.3.1 컨테이너 내의 태스크 245
    10.3.2 왜 컨테이너를 사용하는가? 246
    10.4 도커에서 태스크 실행하기 247
    10.4.1 DockerOperator 소개 247
    10.4.2 태스크를 위한 컨테이너 이미지 생성하기 249
    10.4.3 도커 태스크로 DAG 구성하기 252
    10.4.4 도커 기반의 워크플로 255
    10.5 쿠버네티스에서 태스크 실행 256
    10.5.1 쿠버네티스 소개 257
    10.5.2 쿠버네티스 설정하기 258
    10.5.3 KubernetesPodOperator 사용하기 261
    10.5.4 쿠버네티스 관련 문제 진단하기 265
    10.5.5 도커 기반 워크플로와 차이점 267
    요약 268

    PART III Airflow 실습
    CHAPTER 11 모범 사례 271
    11.1 깔끔한 DAG 작성 271
    11.1.1 스타일 가이드 사용 272
    11.1.2 중앙에서 자격 증명 관리 276
    11.1.3 구성 세부 정보를 일관성 있게 지정하기 278
    11.1.4 DAG 구성 시 연산 부분 배제 280
    11.1.5 Factory 함수를 사용한 공통 패턴 생성 283
    11.1.6 태스크 그룹을 사용하여 관련된 태스크들의 그룹 만들기 286
    11.1.7 대규모 수정을 위한 새로운 DAG 생성 288
    11.2 재현 가능한 태스크 설계 288
    11.2.1 태스크는 항상 멱등성을 가져야 합니다 289
    11.2.2 태스크 결과는 결정적이어야 합니다 289
    11.2.3 함수형 패러다임을 사용하여 태스크 설계합니다 290
    11.3 효율적인 데이터 처리 291
    11.3.1 데이터의 처리량 제한하기 291
    11.3.2 증분 적재 및 처리 292
    11.3.3 중간 단계 데이터 캐싱 293
    11.3.4 로컬 파일 시스템에 데이터 저장 방지 294
    11.3.5 외부/소스 시스템으로 작업을 이전하기 295
    11.4 자원관리 295
    11.4.1 Pool을 이용한 동시성 관리하기 295
    11.4.2 SLA 및 경고를 사용하여 장기 실행 작업 탐지 297
    요약 298

    CHAPTER 12 운영환경에서 Airflow 관리 300
    12.1 Airflow 아키텍처 301
    12.1.1 어떤 익스큐터가 적합한가? 302
    12.1.2 Airflow를 위한 메타스토어 설정 304
    12.1.3 스케줄러 자세히 살펴보기 306
    12.2 익스큐터 설치 311
    12.2.1 SequentialExecutor 설정 312
    12.2.2 LocalExecutor 설정 312
    12.2.3 CeleryExecutor 설정 313
    12.2.4 KubernetesExecutor 설정 317
    12.3 모든 Airflow 프로세스의 로그 확인 324
    12.3.1 웹 서버 로그 저장 325
    12.3.2 스케줄러 로그 저장 326
    12.3.3 태스크 로그 저장 327
    12.3.4 원격 저장소로 로그 보내기 328
    12.4 Airflow 메트릭 시각화 및 모니터링 328
    12.4.1 Airflow로부터 메트릭 수집하기 329
    12.4.2 측정 항목을 전송하도록 Airflow 구성 331
    12.4.3 메트릭을 수집하도록 Prometheus 구성 331
    12.4.4 Grafana를 이용한 대시보드 생성 334
    12.4.5 무엇을 모니터링해야 하는가? 336
    12.5 실패한 태스크에 대한 알림을 받는 방법 338
    12.5.1 DAG 및 오퍼레이터에서 경고 338
    12.5.2 서비스 수준 계약 정의 341
    12.6 확장성 및 성능 342
    12.6.1 실행중인 태스크의 최대 수 제어 343
    12.6.2 시스템 성능 구성 344
    12.6.3 여러 스케줄러 실행 345
    요약 346

    CHAPTER 13 Airflow 보안 347
    13.1 Airflow 웹 인터페이스에서 보안 348
    13.1.1 RBAC 인터페이스에서 사용자 추가 348
    13.1.2 RBAC 인터페이스 설정 352
    13.2 미사용 데이터 암호화 353
    13.2.1 Fernet Key 생성 354
    13.3 LDAP 서비스로 연결 355
    13.3.1 LDAP의 이해 356
    13.3.2 LDAP 서비스에서 사용자 가져오기 358
    13.4 웹 서버에 대한 트래픽 암호화 359
    13.4.1 HTTPS 이해 360
    13.4.2 HTTPS용 인증서 구성 362
    13.5 시크릿 관리 시스템에서 자격 증명 가져오기 366
    요약 370

    CHAPTER 14 프로젝트: 뉴욕에서 가장 빠른 길 찾기 371
    14.1 데이터에 대한 이해 374
    14.1.1 Yellow Cab 파일 공유 375
    14.1.2 Citi Bike REST API 376
    14.1.3 접근 계획 결정 377
    14.2 데이터 추출 378
    14.2.1 Citi Bike 데이터 다운로드하기 378
    14.2.2 Yellow Cab 데이터 다운로드 380
    14.3 데이터에 유사한 변환 적용 383
    14.4 데이터 파이프 라인 구조화 388
    14.5 재현 가능한 데이터 파이프 라인 개발 390
    요약 392


    PART IV 클라우드에서의 Airflow
    CHAPTER 15 클라우드에서의 Airflow 395
    15.1 클라우드 배포 정책 설계 396
    15.2 클라우드 전용 오퍼레이터와 훅 397
    15.3 관리형 서비스 398
    15.3.1 Astronomer.io 399
    15.3.2 구글 Cloud Composer 400
    15.3.3 아마존 Managed Workflows for Apache Airflow 400
    15.4 배포 전략 선택 401
    요약 402

    CHAPTER 16 AWS에서의 Airflow 404
    16.1 AWS에서 Airflow 배포 404
    16.1.1 클라우드 서비스 선택 405
    16.1.2 네트워크 설계 406
    16.1.3 DAG 동기화 추가 407
    16.1.4 CeleryExecutor를 사용하여 스케일링 407
    16.1.5 추가 단계 409
    16.2 AWS 전용 훅과 오퍼레이터 410
    16.3 사용 사례: AWS Athena를 사용한 서버리스 영화 랭킹 구축 412
    16.3.1 개요 412
    16.3.2 리소스 설정 413
    16.3.3 DAG 구현 416
    16.3.4 리소스 정리 422
    요약 422

    CHAPTER 17 Azure에서의 Airflow 424
    17.1 Azure에서 Airflow 배포 424
    17.1.1 서비스 선택 425
    17.1.2 네트워크 설계 426
    17.1.3 CeleryExecutor를 사용하여 확장성 개선 428
    17.1.4 추가 단계 429
    17.2 Azure 전용 훅/오퍼레이터 429
    17.3 예제: Azure Synapse를 사용하여 서버리스 영화 랭킹 구축 430
    17.3.1 개요 430
    17.3.2 리소스 구성 431
    17.3.3 DAG 구현 435
    17.3.4 정리 작업 442
    요약 442

    CHAPTER 18 GCP에서의 Airflow 443
    18.1 GCP에서 Airflow 배포 443
    18.1.1 서비스 선택 444
    18.1.2 헬름으로 GKE에 배포 447
    18.1.3 구글 서비스와 연동하기 449
    18.1.4 네트워크 설계 451
    18.1.5 CeleryExecutor를 사용한 스케일링 452
    18.2 GCP 전용 훅과 오퍼레이터 455
    18.3 사용 사례: GCP에서 서버리스 영화 랭킹 구축 460
    18.3.1 GCS로 데이터 업로드 461
    18.3.2 BigQuery에 데이터 로드하기 463
    18.3.3 최고 영화 평점 추출 466
    요약 468

    APPENDIX A 실행 코드 예제 470
    A.1 코드 구성 470
    A.2 예제 실행 471
    A.2.1 도커 환경 시작하기 471
    A.2.2 실행 중인 서비스 검사하기 472
    A.2.3 환경 제거 472

    APPENDIX B Airflow 1과 2의 패키지 구성 474
    B.1 Airflow 1 패키지 구성 474
    B.2 Airflow 2 패키지 구성 475

    APPENDIX C Prometheus 메트릭 매핑 479

추천사

  • “Airflow에 관한 한, 지금까지의 자료 중 최고입니다.”

  • “Airflow의 바이블입니다. 초보자에서부터 전문가까지 모든 사용자에게 매우 유용합니다.”

  • “책을 읽고 따라하다 보면, 데이터 파이프라인의 오케스트레이션 작업에서 Airflow가 지닌 장점을 쉽게 파악할 수 있습니다.”

  • “Apache Airflow를 사용하여 워크플로를 생성, 작성, 스케줄, 그리고 모니터링할 때 이 책 한 권만 참고하면 됩니다. 의심의 여지 없이 추천합니다.”

  • 요즘 애플리케이션 및 머신러닝 모델 개발에 빠른 개발 속도와 애자일 문화를 적용하면서 엔지 니어가 다루어야 하는 플랫폼의 크기와 복잡도가 엄청나게 증가하고 있습니다. 복잡한 플랫폼 에서 하나의 작업 실패는 관련된 여러 작업의 실패로 이어져서 생산성을 크게 해치는 결과를 낳게 됩니다. 이러한 복잡한 워크플로의 개선 및 확장과 모니터링은 물론, 개발도 편리하게 도 와주는 도구가 바로 Apache Airflow 입니다. 사실 Apache Airflow 가 워크플로 관리 엔진의 탑 티어라고 하지만, 최근까지 관련 서적이 거의 없어 기술 블로그나 웹사이트를 검색해야 했습니 다. 그러던 중 원서로 출간된 이 책을 보면서 누군가 번역을 해주면 정말 도움이 될 것 같다고 생각했는데, 국내 최초로 Apache Airflow 관련 도서가 나오게 되어 기쁩니다.

  • 이 책은 Apache Airflow 의 개념과 적용 방법에 대한 설명뿐만 아니라, 실제 서비스 운영 시 고려해야 할 모니터링, 확장, 보안 등에 관한 내용을 상세하게 안내하고 있으며, 다양한 클라 우드 환경에서 활용하는 방법까지 다루고 있습니다. 아직 세부적인 설명과 정확한 가이드 문 서가 없어 도입을 망설이고 있다면, 이 책을 통해 Apache Airflow 의 세계로 지금 바로 도전해 보실 것을 추천합니다.

책 속으로

이 책은 데이터 파이프라인을 처리하기 위한 배치 태스크에 중심을 둔 Apache Airflow에 초점을 맞추고 있습니다. Airflow의 주요 기능은 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축할 수 있게 해 주며, 최신 기술 환경에서 접하게 되는 서로 다른 기술들을 연결할 수 있는 다양한 빌딩 블록을 제공하는 것입니다. _3쪽

Airflow는 파이썬 스크립트로 DAG의 구조를 설명하고 구성합니다(DAG 파일 안에 파이썬 코드를 사용하여 DAG를 정의함). 따라서 일반적으로 각 DAG 파일은 주어진 DAG에 대한 태스크 집합과 태스크 간의 의존성을 기술하고, Airflow는 DAG 구조를 식별하기 위해 코드를 파싱(parsing)합니다(표지 뒷날개 그림 참고). _10쪽

Airflow를 사용하면 임의의 시작 날짜로부터 스케줄 간격을 정의할 수 있으므로 과거의 시작 날짜부터 과거 간격을 정의할 수도 있습니다. 이 속성을 사용하여 과거 데이터 세트를 로드하거나 분석하기 위해 DAG의 과거 기록을 실행할 수 있습니다. 이 프로세스를 일반적으로 백필(backfilling)이라고 합니다. _56쪽

모든 오퍼레이터 인수가 템플릿이 될 수 있는 것은 아닙니다. 모든 오퍼레이터는 템플릿으로 만들 수 있는 속성의 허용 리스트를 유지합니다. 기본적으로 {{name}} 문자열은 Jinja에서 템플릿 가능한 속성 리스트에 포함되지 않으면 {{name}} 그대로 문자열로 해석됩니다. 이 리스트는 모든 오퍼레이터의 template_fields 속성에 의해 설정됩니다. _67쪽

트리거 규칙은 태스크의 의존성 기능(= DAG 안에서 선행 태스크 조건)과 같이 Airflow가 태스크가 실행 준비가 되어 있는지 여부를 결정하기 위한 필수적인 조건입니다. Airflow의 기본 트리거 규칙은 all_success이며, 태스크를 실행하려면 모든 의존적인 태스크가 모두 성공적으로 완료되어야 함을 의미합니다. _103쪽

태스크는 결정적(deterministic)일 때만 재현할 수 있습니다. 즉, 태스크는 주어진 입력에 대해 항상 동일한 출력을 반환해야 합니다. 대조적으로, 비결정적(nondeterministic) 태스크는 동일한 입력 데이터에 대해서도 실행할 때마다 다른 결과를 제공할 수 있으므로 재현 가능한 DAG를 구현할 수 없습니다. _289쪽

기본정보

상품정보
ISBN 9791191600681
발행(출시)일자 2022년 03월 16일
쪽수 512쪽
크기
188 * 245 * 29 mm / 966 g
총권수 1권
시리즈명
I♥Cloud 제이펍의 클라우드 시리즈
원서명/저자명 Data Pipelines with Apache Airflow/Bas Harenslak

Klover

Klover 리뷰 안내
교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1.리워드 안내
구매 후 90일 이내에 평점과 10자 이상의 리뷰 작성 시 e교환권 200원을 적립해 드립니다.
e교환권은 적립 일로부터 180일 동안 사용 가능합니다.
리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 리뷰 종류별로 구매한 아이디당 한 상품에 최초 1회 작성 건들에 대해서만 제공됩니다.
판매가 1,000원 미만 도서의 경우 리워드 지급 대상에서 제외됩니다.
한달 후 리뷰
구매 후 30일~ 120일 이내에 작성된 두 번째 구매리뷰에 대해 한 달 후 리뷰로 인지하고 e교환권 100원을 추가 제공합니다.

* 강연, 공연, 여행, 동영상, 사은품, 기프트카드 상품은 지급 제외
2.운영 원칙 안내
Klover 리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다.
일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

리뷰는 1인이 중복으로 작성하실 수는 있지만, 평점계산은 가장 최근에 남긴 1건의 리뷰만 반영됩니다.
3.신고하기
다른 고객이 작성리뷰에 대해 불쾌함을 느끼는 경우 신고를 할 수 있으며, 신고 자가 일정수준 이상 누적되면 작성하신 리뷰가 노출되지 않을 수 있습니다.

구매 후 리뷰 작성 시, e교환권 200원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여주는 교보문고의 새로운 서비스입니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 "좋아요“ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보 없이 삭제될 수 있습니다.
리워드 안내
구매 후 90일 이내에 문장수집 작성 시 e교환권 100원을 적립해드립니다.
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.

구매 후 리뷰 작성 시, e교환권 100원 적립

이 책의 첫 기록을 남겨주세요

교환/반품/품절 안내

상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

이벤트
TOP

저자 모두보기

매장별 재고 및 도서위치

할인쿠폰 다운로드

  • 쿠폰은 주문결제화면에서 사용 가능합니다.
  • 다운로드한 쿠폰은 마이 > 나의 통장 에서 확인 가능합니다.
  • 도서정가제 적용 대상 상품에 대해서는 정가의 10%까지 쿠폰 할인이 가능합니다.
  • 도서정가제 적용 대상 상품에 10% 할인이 되었다면, 해당 상품에는 사용하실 수
    없습니다.

적립예정포인트 안내

  • 통합포인트 안내

    • 통합포인트는 교보문고(인터넷, 매장), 핫트랙스(인터넷, 매장), 모바일 교보문고 등 다양한 곳에서 사용하실 수 있습니다.
    • 상품 주문 시, 해당 상품의 적립률에 따라 적립 예정 포인트가 자동 합산되고 주문하신 상품이 발송완료 된 후에 자동으로 적립됩니다.
    • 단, 쿠폰 및 마일리지, 통합포인트, e교환권 사용 시 적립 예정 통합포인트가 변동될 수 있으며 주문취소나 반품시에는 적립된 통합포인트가 다시 차감됩니다.
  • 통합포인트 적립 안내

    • 통합포인트는 도서정가제 범위 내에서 적용됩니다.
    • 추가적립 및 회원 혜택은 도서정가제 대상상품(국내도서, eBook등)으로만 주문시는 해당되지 않습니다.
  • 기본적립) 상품별 적립금액

    • 온라인교보문고에서 상품 구매시 상품의 적립률에 따라 적립됩니다.
    • 단 도서정가제 적용 대상인 국내도서,eBook은 15%내에서 할인율을 제외한 금액내로 적립됩니다.
  • 추가적립) 5만원 이상 구매시 통합포인트 2천원 추가적립

    • 5만원 이상 구매시 통합포인트 2천원 적립됩니다.
    • 도서정가제 예외상품(외서,음반,DVD,잡지(일부),기프트) 2천원 이상 포함시 적립 가능합니다.
    • 주문하신 상품이 전체 품절인 경우 적립되지 않습니다.
  • 회원혜택) 3만원이상 구매시 회원등급별 2~4% 추가적립

    • 회원등급이 플래티넘, 골드, 실버 등급의 경우 추가적립 됩니다.
    • 추가적립은 실결제액 기준(쿠폰 및 마일리지, 통합포인트, e교환권 사용액 제외) 3만원 이상일 경우 적립됩니다.
    • 주문 후 취소,반품분의 통합포인트는 단품별로 회수되며, 반품으로 인해 결제잔액이 3만원 미만으로 변경될 경우 추가 통합포인트는 전액 회수될 수 있습니다.

제휴 포인트 안내

제휴 포인트 사용

  • OK CASHBAG 10원 단위사용 (사용금액 제한없음)
  • GS&POINT 최대 10만 원 사용
더보기

구매방법 별 배송안내

지역별 도착 예정일

수도권 지역

배송 일정 안내 테이블로 결제 완료 시간, 도착예정일 결제 완료 시간 컬럼의 하위로 평일 0시 ~ 12시 토요일 0시 ~ 11시 평일 12시 ~ 22시 평일 12시 ~ 24시 토요일 11시 ~ 21시 을(를) 나타낸 표입니다.
결제 완료 시간 도착예정일
평일 0시 ~ 12시

토요일 0시 ~ 11시
당일배송 오늘

당일배송 오늘
평일 12시 ~ 22시

평일 12시 ~ 24시

토요일 11시 ~ 21시
새벽배송 내일 07시 이전

내일

일요배송 일요일

수도권 외 (천안, 대전, 울산, 부산, 대구, 창원)

배송 일정 안내 테이블로 결제 완료 시간, 도착예정일 결제 완료 시간 컬럼의 하위로 월~토 0시 ~ 11시 30분 을(를) 나타낸 표입니다.
결제 완료 시간 도착예정일
월~토 0시 ~ 11시 30분
당일배송 오늘

배송 유의사항

  • 새벽배송과 일요배송은 수도권 일부 지역을 대상으로 합니다. 상품 상세페이지에서 도착 예정일을 확인해 주세요.
  • 수도권 외 지역에서 선물포장하기 또는 사은품을 포함하여 주문할 경우 당일배송 불가합니다.
  • 무통장입금 주문 후 당일 배송 가능 시간 이후 입금된 경우 당일 배송 불가합니다.
  • 새벽배송의 경우 공동 현관 출입 번호가 누락 되었거나 틀릴 경우 요청하신 방법으로 출입이 어려워, 부득이하게 공동 현관 또는 경비실 앞에 배송 될 수 있습니다.
  • 학교, 관공서, 회사 등 출입 제한 시간이 있는 곳은 당일배송, 새벽배송, 일요배송이 제공되지 않을 수 있습니다.
  • 공휴일과 겹친 토요일, 일요일은 일요일 배송에서 제외됩니다. 일요배송은 한정 수량에 한해 제공됩니다. 수량 초과 시 일반배송으로 발송되니 주문 시 도착 예정일을 확인해 주세요.
  • 주문 후 배송지 변경 시 변경된 배송지에 따라 익일 배송될 수 있습니다.
  • 수도권 외 지역의 경우 효율적인 배송을 위해 각 지역 매장에서 택배를 발송하므로, 주문 시의 부록과 상이할 수 있습니다.
  • 각 지역 매장에서 재고 부족 시 재고 확보를 위해 당일 배송이 불가할 수 있습니다.
  • 기상악화로 인한 도로 사정으로 일부 지역의 배송 지연이 발생될 수 있습니다.
  • 출고 예정일이 5일 이상인 상품의 경우(결제일로부터 7일 동안 미입고), 출판사 / 유통사 사정으로 품/절판 되어 구입이 어려울 수 있습니다. 이 경우 SMS, 메일로 알려드립니다.
  • 분철상품 주문 시 분철 작업으로 인해 기존 도착 예정일에 2일 정도 추가되며, 당일 배송, 해외 배송이 불가합니다.
  • 해외주문도서는 해외 거래처 사정에 의해 품절/지연될 수 있습니다.
  • 스페셜오더 도서나 일서 해외 주문 도서와 함께 주문 시 배송일이 이에 맞추어 지연되오니, 이점 유의해 주시기 바랍니다.

바로드림존에서 받기

  1. STEP 01
    매장 선택 후 바로드림 주문
  2. STEP 02
    준비완료 알림 시 매장 방문하기
  3. STEP 03
    바로드림존에서 주문상품 받기
  • 바로드림은 전국 교보문고 매장 및 교내서점에서 이용 가능합니다.
  • 잡지 및 일부 도서는 바로드림 이용이 불가합니다.
  • 각 매장 운영시간에 따라 바로드림 이용 시간이 달라질 수 있습니다.

수령 안내

  • 안내되는 재고수량은 서비스 운영 목적에 따라 상이할 수 있으므로 해당 매장에 문의해주시기 바랍니다.
  • 바로드림 주문 후 재고가 실시간 변동되어, 수령 예상 시간에 수령이 어려울 수 있습니다.

취소/교환/반품 안내

  • 주문 후 7일간 찾아가지 않으시면, 자동으로 결제가 취소됩니다.
  • 취소된 금액은 결제수단의 승인취소 및 예치금으로 전환됩니다.
  • 교환/반품은 수령하신 매장에서만 가능합니다.

사은품 관련 안내

  • 바로드림 서비스는 일부 1+1 도서, 경품, 사은품 등이 포함 되지 않습니다.

음반/DVD 바로드림시 유의사항

  • 음반/DVD 상품은 바로드림 주문 후 수령점 변경이 불가합니다. 주문 전 수령점을 꼭 확인해 주세요.
  • 사은품(포스터,엽서 등)은 증정되지 않습니다.
  • 커버이미지 랜덤발매 음반은 버전 선택이 불가합니다.
  • 광화문점,강남점,대구점,영등포점,잠실점은 [직접 찾아 바로드림존 가기], [바로드림존에서 받기] 로 주문시 음반 코너에서 수령확인이 가능합니다
  • 선물 받는 분의 휴대폰번호만 입력하신 후 결제하시면 받는 분 휴대폰으로 선물번호가 전달됩니다.
  • 문자를 받은 분께서는 마이 > 주문관리 > 모바일 선물내역 화면에서 선물번호와 배송지 정보를 입력하시면 선물주문이 완료되어 상품준비 및 배송이 진행됩니다.
  • 선물하기 결제하신 후 14일까지 받는 분이 선물번호를 등록하지 않으실 경우 주문은 자동취소 됩니다.
  • 또한 배송 전 상품이 품절 / 절판 될 경우 주문은 자동취소 됩니다.

바로드림 서비스 안내

  1. STEP 01
    매장 선택 후 바로드림 주문
  2. STEP 02
    준비완료 알림 시 매장 방문하기
  3. STEP 03
    바로드림존에서 주문상품 받기
  • 바로드림은 전국 교보문고 매장 및 교내서점에서 이용 가능합니다.
  • 잡지 및 일부 도서는 바로드림 이용이 불가합니다.
  • 각 매장 운영시간에 따라 바로드림 이용 시간이 달라질 수 있습니다.

수령 안내

  • 안내되는 재고수량은 서비스 운영 목적에 따라 상이할 수 있으므로 해당 매장에 문의해주시기 바랍니다.
  • 바로드림 주문 후 재고가 실시간 변동되어, 수령 예상시간에 수령이 어려울 수 있습니다.

취소/교환/반품 안내

  • 주문 후 7일간 찾아가지 않으시면, 자동으로 결제가 취소됩니다.
  • 취소된 금액은 결제수단의 승인취소 및 예치금으로 전환됩니다.
  • 교환/반품은 수령하신 매장에서만 가능합니다.

사은품 관련 안내

  • 바로드림 서비스는 일부 1+1 도서, 경품, 사은품 등이 포함되지 않습니다.

음반/DVD 바로드림시 유의사항

  • 음반/DVD 상품은 바로드림 주문 후 수령점 변경이 불가합니다. 주문 전 수령점을 꼭 확인해주세요.
  • 사은품(포스터,엽서 등)은 증정되지 않습니다.
  • 커버이미지 랜덤발매 음반은 버전 선택이 불가합니다.
  • 광화문점,강남점,대구점,영등포점,잠실점은 [직접 찾아 바로드림존 가기], [바로드림존에서 받기] 로 주문시 음반코너에서 수령확인이 가능합니다.
  1. STEP 01
    픽업박스에서 찾기 주문
  2. STEP 02
    도서준비완료 후 휴대폰으로 인증번호 전송
  3. STEP 03
    매장 방문하여 픽업박스에서 인증번호 입력 후 도서 픽업
  • 바로드림은 전국 교보문고 매장 및 교내서점에서 이용 가능합니다.
  • 잡지 및 일부 도서는 바로드림 이용이 불가합니다.
  • 각 매장 운영시간에 따라 바로드림 이용 시간이 달라질 수 있습니다.

수령 안내

  • 안내되는 재고수량은 서비스 운영 목적에 따라 상이할 수 있으므로 해당 매장에 문의해주시기 바랍니다.
  • 바로드림 주문 후 재고가 실시간 변동되어, 수령 예상시간에 수령이 어려울 수 있습니다.

취소/교환/반품 안내

  • 주문 후 7일간 찾아가지 않으시면, 자동으로 결제가 취소됩니다.
  • 취소된 금액은 결제수단의 승인취소 및 예치금으로 전환됩니다.
  • 교환/반품은 수령하신 매장에서만 가능합니다.

사은품 관련 안내

  • 바로드림 서비스는 일부 1+1 도서, 경품, 사은품 등이 포함되지 않습니다.

음반/DVD 바로드림시 유의사항

  • 음반/DVD 상품은 바로드림 주문 후 수령점 변경이 불가합니다. 주문 전 수령점을 꼭 확인해주세요.
  • 사은품(포스터,엽서 등)은 증정되지 않습니다.
  • 커버이미지 랜덤발매 음반은 버전 선택이 불가합니다.
  • 광화문점,강남점,대구점,영등포점,잠실점은 [직접 찾아 바로드림존 가기], [바로드림존에서 받기] 로 주문시 음반코너에서 수령확인이 가능합니다.

도서 소득공제 안내

  • 도서 소득공제란?

    • 2018년 7월 1일 부터 근로소득자가 신용카드 등으로 도서구입 및 공연을 관람하기 위해 사용한 금액이 추가 공제됩니다. (추가 공제한도 100만원까지 인정)
      • 총 급여 7,000만 원 이하 근로소득자 중 신용카드, 직불카드 등 사용액이 총급여의 25%가 넘는 사람에게 적용
      • 현재 ‘신용카드 등 사용금액’의 소득 공제한도는 300만 원이고 신용카드사용액의 공제율은 15%이지만, 도서·공연 사용분은 추가로 100만 원의 소득 공제한도가 인정되고 공제율은 30%로 적용
      • 시행시기 이후 도서·공연 사용액에 대해서는 “2018년 귀속 근로소득 연말 정산”시기(19.1.15~)에 국세청 홈택스 연말정산간소화 서비스 제공
  • 도서 소득공제 대상

    • 도서(내서,외서,해외주문도서), eBook(구매)
    • 도서 소득공제 대상 상품에 수반되는 국내 배송비 (해외 배송비 제외)
      • 제외상품 : 잡지 등 정기 간행물, 음반, DVD, 기프트, eBook(대여,학술논문), 사은품, 선물포장, 책 그리고 꽃
      • 상품정보의 “소득공제” 표기를 참고하시기 바랍니다.
  • 도서 소득공제 가능 결제수단

    • 카드결제 : 신용카드(개인카드에 한함)
    • 현금결제 : 예치금, 교보e캐시(충전에한함), 해피머니상품권, 컬쳐캐쉬, 기프트 카드, 실시간계좌이체, 온라인입금
    • 간편결제 : 교보페이, 네이버페이, 삼성페이, 카카오페이, PAYCO, 토스, CHAI
      • 현금결제는 현금영수증을 개인소득공제용으로 신청 시에만 도서 소득공제 됩니다.
      • 교보e캐시 도서 소득공제 금액은 교보eBook > e캐시 > 충전/사용내역에서 확인 가능합니다.
      • SKpay, 휴대폰 결제, 교보캐시는 도서 소득공제 불가
  • 부분 취소 안내

    • 대상상품+제외상품을 주문하여 신용카드 "2회 결제하기"를 선택 한 경우, 부분취소/반품 시 예치금으로 환원됩니다.

      신용카드 결제 후 예치금으로 환원 된 경우 승인취소 되지 않습니다.

  • 도서 소득공제 불가 안내

    • 법인카드로 결제 한 경우
    • 현금영수증을 사업자증빙용으로 신청 한 경우
    • 분철신청시 발생되는 분철비용

알림 신청

아래의 알림 신청 시 원하시는 소식을 받아 보실 수 있습니다.
알림신청 취소는 마이룸 > 알림신청내역에서 가능합니다.

Apache Airflow 기반의 데이터 파이프라인
에어플로 중심의 워크플로 구축에서 커스텀 컴포넌트 개발및 배포,관리까지
신고

신고 사유를 선택해주세요.
신고 내용은 이용약관 및 정책에 의해 처리됩니다.

허위 신고일 경우, 신고자의 서비스 활동이 제한될 수 있으니 유의하시어
신중하게 신고해주세요.

판형알림

  • A3 [297×420mm]
  • A4 [210×297mm]
  • A5 [148×210mm]
  • A6 [105×148mm]
  • B4 [257×364mm]
  • B5 [182×257mm]
  • B6 [128×182mm]
  • 8C [8절]
  • 기타 [가로×세로]
EBS X 교보문고 고객님을 위한 5,000원 열공 혜택!
자세히 보기

해외주문양서 배송지연 안내

현재 미국 현지 눈폭풍으로 인해
해외 거래처 출고가 지연되고 있습니다.

해외주문양서 주문 시
예상 출고일보다 배송기간이 더 소요될 수 있으니
고객님의 너그러운 양해 부탁드립니다.

감사합니다.