본문내용 바로가기
MD의선택 무료배송 이벤트 사은품 소득공제

스파크 완벽 가이드 스파크를 활용한 빅데이터 처리와 분석의 모든 것

빌 체임버스 , 마테이 자하리아 지음 | 우성한 , 이영호 , 강재원 옮김 | 한빛미디어 | 2018년 12월 10일 출간
클로버 리뷰쓰기
  • 정가 : 48,000원
    판매가 : 43,200 [10%↓ 4,800원 할인]
  • 혜택 :
    [기본적립] 2400원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2,000원 추가적립 안내 [회원혜택] 회원 등급 별, 3만원 이상 구매 시 2~4% 추가적립 안내 [리뷰적립] 리뷰 작성 시 e교환권 최대 300원 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(25일,수) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트

해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
  • 6월 2일 개발자 북콘서트 사전신청하고 선물 받자!
    2022.05.11 ~ 2022.05.31
  • [교보단독 사은품] 개발자 매거진 <리드잇zine> ..
    2022.05.10 ~ 2022.06.30
  • 새로 출간된 O'Reilly 번역서를 확인해보세요!
    2019.06.14 ~ 2022.12.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2022.12.31
상품상세정보
ISBN 9791162241288(1162241284)
쪽수 796쪽
크기 185 * 237 * 34 mm /1387g 판형알림
이 책의 원서/번역서 Spark / Chambers, Bill

책소개

이 책이 속한 분야

스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것
오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의 개선점과 새로운 기능을 자세히 설명합니다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 함께 살펴봅니다. 이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있습니다. 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있습니다.

목차

Part 1 빅데이터와 스파크 간단히 살펴보기
CHAPTER 1 아파치 스파크란
1.1 아파치 스파크의 철학
1.2 스파크의 등장 배경
1.3 스파크의 역사
1.4 스파크의 현재와 미래
1.5 스파크 실행하기
1.6 정리

CHAPTER 2 스파크 간단히 살펴보기
2.1 스파크의 기본 아키텍처
2.2 스파크의 다양한 언어 API
2.3 스파크 API
2.4 스파크 시작하기
2.5 SparkSession
2.6 DataFrame
2.7 트랜스포메이션
2.8 액션
2.9 스파크 UI
2.10 종합 예제
2.11 정리

CHAPTER 3 스파크 기능 둘러보기
3.1 운영용 애플리케이션 실행하기
3.2 Dataset: 타입 안정성을 제공하는 구조적 API
3.3 구조적 스트리밍
3.4 머신러닝과 고급 분석
3.5 저수준 API
3.6 SparkR
3.7 스파크의 에코시스템과 패키지
3.8 정리

Part 2 구조적 API: DataFrame, SQL, Part 2Dataset
CHAPTER 4 구조적 API 개요
4.1 DataFrame과 Dataset
4.2 스키마
4.3 스파크의 구조적 데이터 타입 개요
4.4 구조적 API의 실행 과정
4.5 정리

CHAPTER 5 구조적 API 기본 연산
5.1 스키마
5.2 컬럼과 표현식
5.3 레코드와 로우
5.4 DataFrame의 트랜스포메이션
5.5 정리

CHAPTER 6 다양한 데이터 타입 다루기
6.1 API는 어디서 찾을까
6.2 스파크 데이터 타입으로 변환하기
6.3 불리언 데이터 타입 다루기
6.4 수치형 데이터 타입 다루기
6.5 문자열 데이터 타입 다루기
6.6 날짜와 타임스탬프 데이터 타입 다루기
6.7 null 값 다루기
6.8 정렬하기
6.9 복합 데이터 타입 다루기
6.10 JSON 다루기
6.11 사용자 정의 함수
6.12 Hive UDF
6.13 정리

CHAPTER 7 집계 연산
7.1 집계 함수
7.2 그룹화
7.3 윈도우 함수
7.4 그룹화 셋
7.5 사용자 정의 집계 함수
7.6 정리

CHAPTER 8 조인
8.1 조인 표현식
8.2 조인 타입
8.3 내부 조인
8.4 외부 조인
8.5 왼쪽 외부 조인
8.6 오른쪽 외부 조인
8.7 왼쪽 세미 조인
8.8 왼쪽 안티 조인
8.9 자연 조인
8.10 교차 조인(카테시안 조인)
8.11 조인 사용 시 문제점
8.12 스파크의 조인 수행 방식
8.13 정리

CHAPTER 9 데이터소스
9.1 데이터소스 API의 구조
9.2 CSV 파일
9.3 JSON 파일
9.4 파케이 파일
9.5 ORC 파일
9.6 SQL 데이터베이스
9.7 텍스트 파일
9.8 고급 I/O 개념
9.9 정리

CHAPTER 10 스파크 SQL
10.1 SQL이란
10.2 빅데이터와 SQL: 아파치 하이브
10.3 빅데이터와 SQL: 스파크 SQL
10.4 스파크 SQL 쿼리 실행 방법
10.5 카탈로그
10.6 테이블
10.7 뷰
10.8 데이터베이스
10.9 select 구문
10.10 고급 주제
10.11 다양한 기능
10.12 정리

CHAPTER 11 Dataset
11.1 Dataset을 사용할 시기
11.2 Dataset 생성
11.3 액션
11.4 트랜스포메이션
11.5 조인
11.6 그룹화와 집계
11.7 정리

Part 3 저수준 API
CHAPTER 12 RDD
12.1 저수준 API란
12.2 RDD 개요
12.3 RDD 생성하기
12.4 RDD 다루기
12.5 트랜스포메이션
12.6 액션
12.7 파일 저장하기
12.8 캐싱
12.9 체크포인팅
12.10 RDD를 시스템 명령으로 전송하기
12.11 정리

CHAPTER 13 RDD 고급 개념
13.1 키-값 형태의 기초(키-값 형태의 RDD)
13.2 집계
13.3 cogroup
13.4 조인
13.5 파티션 제어하기
13.6 사용자 정의 직렬화
13.7 정리

CHAPTER 14 분산형 공유 변수
14.1 브로드캐스트 변수
14.2 어큐뮬레이터
14.3 정리

Part 4 운영용 애플리케이션
CHAPTER 15 클러스터에서 스파크 실행하기
15.1 스파크 애플리케이션의 아키텍처
15.2 스파크 애플리케이션의 생애주기(스파크 외부)
15.3 스파크 애플리케이션의 생애주기(스파크 내부)
15.4 세부 실행 과정
15.5 정리

CHAPTER 16 스파크 애플리케이션 개발하기
16.1 스파크 애플리케이션 작성하기
16.2 스파크 애플리케이션 테스트
16.3 개발 프로세스
16.4 애플리케이션 시작하기
16.5 애플리케이션 환경 설정하기
16.6 정리

CHAPTER 17 스파크 배포 환경
17.1 스파크 애플리케이션 실행을 위한 클러스터 환경
17.2 클러스터 매니저
17.3 기타 고려사항
17.4 정리

CHAPTER 18 모니터링과 디버깅
18.1 모니터링 범위
18.2 모니터링 대상
18.3 스파크 로그
18.4 스파크 UI
18.5 디버깅 및 스파크 응급 처치
18.6 정리

CHAPTER 19 성능 튜닝
19.1 간접적인 성능 향상 기법
19.2 직접적인 성능 향상 기법
19.3 정리

Part 5 스트리밍
CHAPTER 20 스트림 처리의 기초
20.1 스트림 처리란
20.2 스트림 처리의 핵심 설계 개념
20.3 스파크의 스트리밍 API
20.4 정리

CHAPTER 21 구조적 스트리밍의 기초
21.1 구조적 스트리밍의 기초
21.2 핵심 개념
21.3 구조적 스트리밍 활용
21.4 스트림 트랜스포메이션
21.5 입력과 출력
21.6 스트리밍 Dataset API
21.7 정리

CHAPTER 22 이벤트 시간과 상태 기반 처리
22.1 이벤트 시간 처리
22.2 상태 기반 처리
22.3 임의적인 상태 기반 처리
22.4 이벤트 시간 처리의 기본
22.5 이벤트 시간 윈도우
22.6 스트림에서 중복 데이터 제거하기
22.7 임의적인 상태 기반 처리
22.8 정리

CHAPTER 23 운영 환경에서의 구조적 스트리밍
23.1 내고장성과 체크포인팅
23.2 애플리케이션 변경하기
23.3 메트릭과 모니터링
23.4 알림
23.5 스트리밍 리스너를 사용한 고급 모니터링
23.6 정리

Part 6 고급 분석과 머신러닝
CHAPTER 24 고급 분석과 머신러닝 개요
24.1 고급 분석에 대한 짧은 입문서
24.2 스파크의 고급 분석 툴킷
24.3 고수준 MLlib의 개념
24.4 MLlib 실제로 사용하기
24.5 모델 배포 방식
24.6 정리

CHAPTER 25 데이터 전처리 및 피처 엔지니어링
25.1 사용 목적에 따라 모델 서식 지정하기
25.2 변환자
25.3 전처리 추정자
25.4 고수준 변환자
25.5 연속형 특징 처리하기
25.6 범주형 특징 처리하기
25.7 텍스트 데이터 변환자
25.8 특징 조작하기
25.9 특징 선택
25.10 고급 주제
25.11 정리

CHAPTER 26 분류
26.1 활용 사례
26.2 분류 유형
26.3 MLlib의 분류 모델
26.4 로지스틱 회귀
26.5 의사결정트리
26.6 랜덤 포레스트와 그래디언트 부스티드 트리
26.7 나이브 베이즈
26.8 분류와 자동 모델 튜닝을 위한 평가기
26.9 세부 평가지표
26.10 일대다 분류기
26.11 다층 퍼셉트론
26.12 정리

CHAPTER 27 회귀
27.1 활용 사례
27.2 MLlib에서 제공하는 회귀 모델
27.3 선형 회귀
27.4 일반화 선형 회귀
27.5 의사결정트리
27.6 랜덤 포레스트와 그래디언트 부스티드 트리
27.7 고급 방법론
27.8 평가기와 모델 튜닝 자동화
27.9 평가지표
27.10 정리

CHAPTER 28 추천
28.1 활용 사례
28.2 교차최소제곱 알고리즘을 사용하여 협업 필터링 구현하기
28.3 추천을 위한 평가기
28.4 성과 평가지표
28.5 빈발 패턴 마이닝
28.6 정리

CHAPTER 29 비지도 학습
29.1 활용 사례
29.2 모델 확장성
29.3 k-평균
29.4 이분법 k-평균
29.5 가우시안 혼합 모델
29.6 잠재 디리클레 할당
29.7 정리

CHAPTER 30 그래프 분석
30.1 그래프 작성하기
30.2 그래프 쿼리하기
30.3 모티프 찾기
30.4 그래프 알고리즘
30.5 정리

CHAPTER 31 딥러닝
31.1 딥러닝이란
31.2 스파크에서 딥러닝을 사용하는 방법
31.3 딥러닝 라이브러리
31.4 딥러닝 파이프라인을 사용한 간단한 예제
31.5 정리

Part 7 에코시스템
CHAPTER 32 언어별 특성: 파이썬(PySpark)과 R(SparkR, sparklyr)
32.1 PySpark
32.2 R로 스파크 사용하기
32.3 정리

CHAPTER 33 에코시스템과 커뮤니티
33.1 스파크 패키지
33.2 커뮤니티
33.3 정리

부록 A 스파크 설치 및 실행
부록 B 더블린 원정대: 스파크 서밋 2017 더블린 참관기

출판사 서평

스파크 활용과 배포, 유지 보수까지 전체적 흐름을 포괄적으로 안내하는 바이블
이 책은 쉽게 실행할 수 있는 스파크 예제와 모든 유형의 기본 사용 사례를 다루는 스파크 종합 안내서입니다. 스파크의 기초적인 내용부터 처리, 운용, 관리, 모니터링 그리고 그래프와 머신러닝에 이르기까지 다양한 내용을 종합적으로 설명합니다. 특히 스파크 2.0 기반의 고수준 신규 API인 DataFrame, Dataset, 스파크 SQL, 구조적 스트리밍(Structured Streaming)을 집중적으로 소개합니다. 스파크를 사용하려는 데이터 과학자와 ... 더보기

Klover 리뷰 (0)

북로그 리뷰 (0) 쓰러가기

북로그 리뷰는 본인 인증 후 작성 가능합니다.
책이나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 내용은 비공개 처리 될 수 있습니다.
※ 북로그 리뷰 리워드 제공 2021. 4. 1 종료

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매 후 문장수집 작성 시, 리워드를 제공합니다. 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①서양도서-판매정가의 12%, ②일본도서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서/번역서

안내

이 분야의 베스트

더보기+
바로가기
  • 우측 확장형 배너 2
  • 우측 확장형 배너 2
최근 본 상품