본문내용 바로가기
MD의선택 무료배송 이벤트 사은품 소득공제

PySpark 배우기 파이썬과 스파크 2.0으로 대용량 데이터 처리 애플리케이션 다루기

acorn+PACKT 시리즈
토마스 드라바스 , 데니 리 지음 | 이진기 옮김 | 에이콘출판 | 2017년 10월 30일 출간
클로버 리뷰쓰기

이 책의 다른 상품 정보

  • 정가 : 30,000원
    판매가 : 27,000 [10%↓ 3,000원 할인]
  • 혜택 :
    [기본적립] 1500원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2,000원 추가적립 안내 [회원혜택] 회원 등급 별, 3만원 이상 구매 시 2~4% 추가적립 안내 [리뷰적립] 리뷰 작성 시 e교환권 최대 300원 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘( 3일,화) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트

해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
  • IT 행사도서 포함 3만원 이상 구매시 개발자 책꽂이 사은품 선..
    2021.07.16 ~ 2021.08.31
  • 새로운 파이썬 책을 발견해보세요! 전체 목록 다운로드 제공!
    2016.08.11 ~ 2021.12.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2022.12.31
상품상세정보
ISBN 9791161750705(1161750703)
쪽수 336쪽
크기 189 * 237 * 22 mm /814g 판형알림
이 책의 원서/번역서 Learning PySpark: Build data-intensive applications locally and deploy at scale using the combined p / Tomasz Drabas

책소개

이 책이 속한 분야

스파크의 동작 원리와 구성 요소 등을 설명하는 것으로 시작해, 스파크가 왜 고속 처리나 분산 처리에 유리한 구조를 하고 있는지, 속도 개선에 가장 큰 영향을 준 부분은 어떤 부분인지를 이해하기 쉽게 설명한다. 다음으로는 스파크 분석 라이브러리 사용법과 그 라이브러리를 이용한 실제 데이터 분석에 초점을 두고 있다. 마지막으로 실시간으로 들어오는 데이터에 대해서 어떻게 처리하고 테스트하는지와 최종적으로 만들어진 애플리케이션을 스파크 혹은 다른 방법을 통해서 패키지화하는 방법을 제공한다.

작가의 말

2013년에 생산된 데이터는 약 4.4제타바이트로 추정된다. 이는 44억 테라바이트다. 2020년에는 그 10배에 달하는 데이터가 생산될 것으로 예측된다. 데이터는 매초마다 증가하고 있으며, 이런 상황에 비춰 2004년 구글의 제프리 딘과 산자 게마왓은 ‘MapReduce:Simplified Data Processing on Large Clusters’라는 세미 논문을 발표했다. 그때부터 아파치 하둡과 같이 맵리듀스를 사용하는 개념이 매우 유명해지기 시작했다. 피그 하이브 머하웃과 같은 추상 층을 포함하는 하둡 에코시스템도 개발됐다. 이 모든 것이 간단한 맵 리듀스 개념을 사용한다.
매일 수 페타바이트를 다룰 수 있음에도 불구하고, 맵리듀스는 상당히 제한적인 프레임워크다. 또한 대부분의 태스크가 디스크 읽기/쓰기를 필요로 한다. 이러한 단점을 극복하기 위해 2009년 마태 자하리아는 그의 박사 과정 중에 스파크를 개발하기 시작했으며, 2012년 처음으로 배포했다. 스파크는 기본적으로 똑같은 맵리듀스 개념을 사용하지만, 스파크만의 데이터 처리 방법과 태스크 정리 방법으로 인해 메모리 내의 연산 속도가 하둡보다 100배 가량 빨라졌다.
이 책은 파이썬을 이용한 아파치 스파크의 최신 버전을 다룬다. 이 책에서는 구조화된 데이터 혹은 구조화되지 않은 데이터를 어떻게 읽는지 알아보고, 파이스파크에서 사용 가능한 주요 데이터 타입들을 이용하는 방법, 머신 러닝 모델을 만드는 방법, 그래프를 생성하는 방법, 스트리밍 데이터를 읽는 방법, 모델을 클라우드에 적용하는 방법 등을 알아볼 것이다. 각 장은 서로 다른 문제를 다룰 것이다. 독자들이 이 책을 다 읽고 나면, 이 책에서 다루지 않은 다른 문제를 다룰 수 있는 능력을 가지게 되길 기대한다.

★ 옮긴이의 말 ★

전체적인 내용이 그다지 난해하지는 않은 책으로, 파이썬과 스파크를 이용해 분석 시스템 기반을 마련하고 활용하는 단계까지 올라가고자 할 때 함께할 개념서로 적합하다.
이 책의 가장 큰 장점은 개념이나 코드 등의 설명이 상당히 명확하다는 것이다. 책의 난이도가 그리 높지 않아서 쉽게 이해되는 면도 있으나, 저자의 문장력이 상당히 명확한 편이라고 느꼈다. 다소 불필요한 설명도 일부 포함돼 있으나 그 양이 많지 않아서 전체적으로 책의 내용을 이해하는 데 큰 영향을 주지는 않는다.
이 책의 초반에서는 스파크의 동작 원리와 구성 요소 등을 설명한다. 스파크가 왜 고속 처리나 분산 처리에 유리한 구조를 갖췄는지, 속도 개선에 가장 큰 영향을 준 부분은 어느 곳인지 이해하기 쉽게 설명했다. 중반에서는 스파크 분석 라이브러리 사용법과 그 라이브러리를 이용한 실제 데이터 분석에 초점을 맞추고 있다. 실제 데이터를 분석하는 과정에서 데이터를 어떻게 클리닝 및 전처리해야 하는지 약간의 수학적, 통계적 지식을 이용해 설명하고, 그렇게 전처리된 결과를 스파크에서 지원하는 분석 라이브러리를 통해 결과를 내고, 그 결과를 데이터 분석가의 입장에서 해석하는 부분도 다룬다. 끝에서는 실시간 분석과 애플리케이션 패키지화를 살펴본다. 실시간으로 들어오는 데이터를 처리하고 테스트하는 방법과 최종적으로 만들어진 애플리케이션을 스파크 혹은 다른 방법을 통해 패키지화하는 방법을 다룬다.

목차

1장. 스파크 이해하기

__아파치 스파크는 무엇인가?
__스파크 잡과 API
____실행 프로세스
____RDD
____데이터프레임
____데이터셋
____카탈리스트 옵티마이저
____프로젝트 텅스텐
__스파크 2.0의 구조
____데이터셋과 데이터프레임 통합
____스파크세션에 대한 소개
____텅스텐 페이스 2
____구조적 스트리밍
____지속적 애플리케이션
__요약

2장. RDD

__RDD의 내부 작동 원리
__RDD 생성하기
____스키마
____파일로부터 데이터 읽기
____람다 표현
__전역 범위 vs. 지역 범위
__트랜스포메이션
____map() 트랜스포메이션
____.filter() 트랜스포메이션
____.flatMap(...) 트랜스포메이션
____.distinct() 트랜스포메이션
____.sample(...) 트랜스포메이션
____.leftOuterJoin(...) 트랜스포메이션
____.repartition(...) 트랜스포메이션
__액션
____.take(...) 함수
____.collect(...) 함수
____.reduce(...) 함수
____.count(...) 함수
____.saveAsTextFile(...) 함수
____.foreach(...) 함수
__요약

3장. 데이터프레임

__파이썬에서의 RDD 커뮤니케이션
__카탈리스트 옵티마이저 리뷰
__데이터프레임을 이용한 파이스파크 스피드업
__데이터프레임 생성하기
____JSON 데이터 생성하기
____데이터프레임 생성하기
____임시 테이블 생성하기
__간단한 데이터프레임 쿼리
____데이터프레임 API 쿼리
____SQL 쿼리
__RDD로 연동하기
____리플렉션을 이용한 스키마 추측하기
____프로그래밍하는 것처럼 스키마 명시하기
__데이터프레임 API로 쿼리하기
____행의 개수
____필터문 실행하기
__SQL로 쿼리하기
____행의 개수
____필터문을 where 절을 사용해 실행하기
__데이터프레임 시나리오: 비행 기록 성능
____출발지 데이터셋 준비하기
____비행 성능 데이터셋과 공항 데이터셋 조인하기
____비행 성능 데이터 시각화하기
__스파크 데이터셋 API
__요약

4장. 데이터 모델링 준비하기

__중복, 미관찰 값, 아웃라이어 확인하기
____중복 값
____관찰되지 않은 데이터
____아웃라이어
__데이터에 친숙해지기
____기술 통계
____상관 계수
__시각화
____히스토그램
____피처 사이의 상호작용
__요약

5장. MLlib 소개하기

__패키지에 대한 개요
__데이터 로딩하기와 변형하기
__데이터에 대해 알아보기
____기술 통계
____상관 계수
____통계 값 테스트하기
__최종 데이터셋 생성하기
____LabeledPoint의 RDD 생성하기
____학습 데이터셋과 테스트 데이터셋으로 나누기
__유아 생존율 예측하기
____MLlib의 로지스틱 회귀
____가장 유용한 피처 선택하기
____MLlib에서의 랜덤 포레스트
__요약

6장. ML 패키지 소개하기

__패키지의 개요
____트랜스포머
____에스티메이터
____분류 모델
____회귀 모델
____군집화 모델
____파이프라인
__ML로 유아 생존율 예측하기
____데이터 로드하기
____트랜스포머 생성하기
____에스티메이터 생성하기
____파이프라인 생성하기
____모델 학습하기
____모델의 성능 측정하기
____모델 저장하기
__파라미터 하이퍼튜닝
____그리드 탐색
____학습/검증 데이터셋 쪼개기
____파이스파크 ML의 다른 피처 실습
____피처 추출
__요약

7장. 그래프프레임

__그래프프레임 소개
__그래프프레임 설치하기
____라이브러리 생성
__비행 데이터셋 준비하기
__그래프 생성하기
__간단한 쿼리 수행하기
____공항과 여행의 개수 확인하기
____데이터셋 내에서 가장 긴 지연 확인하기
____지연 비행 vs. 정각/이른 비행 확인하기
____시애틀에서 출발하는 어떤 비행기에서 지연이 발생할 확률이 높은가?
____시애틀에서 출발해 어떤 주로 향할 때 비행기의 지연 가능성이 높을까?
__노드 degree 이해하기
__상위 환승 공항 알아내기
__모티브 이해하기
__페이지랭크를 이용해 공항 순위 알아보기
__가장 인기 있는 논스톱 비행편 확인하기
__너비 우선 탐색 사용하기
__D3를 이용한 비행편 시각화
__요약

8장. 텐서프레임

__딥러닝이란 무엇인가?
____인공신경망과 딥러닝의 필요성
____피처 엔지니어링이란?
____데이터와 알고리즘 연결하기
__텐서플로우는 무엇인가?
____pip 설치하기
____텐서플로우 설치하기
____상수를 이용한 행렬 곱
____placeholder를 이용한 행렬 곱
____논의
__텐서프레임 소개하기
__텐서프레임: 퀵 스타트
____설정과 셋업
____기존 칼럼에 상수를 더하기 위해 텐서플로우 사용하기
____블록 단위 reduce 연산자 예제
__요약

9장. 블레이즈를 이용한 다언어 코드 지속성

__블레이즈 설치하기
__다언어 코드 지속성
__데이터 추상화하기
____NumPy 배열로 작업하기
____pandas 데이터프레임 사용하기
____파일로 작업하기
____데이터베이스로 작업하기
__데이터 연산
____칼럼 접근하기
____심볼릭 트랜스포메이션
____칼럼 연산자
____데이터 축소
____조인
__요약

10장. 구조적 스트리밍

__스파크 스트리밍은 무엇인가?
__스파크 스트리밍이 왜 필요한가?
__스파크 스트리밍 애플리케이션의 데이터 흐름은 어떠한가?
__DStream을 이용한 간단한 스트리밍 애플리케이션
__스파크 스트리밍의 글로벌 집계에 대한 기본
__구조적 스트리밍 소개하기
__요약

11장. 스파크 애플리케이션 패키지화하기

__spark-submit 명령어
명령행 파라미터
__애플리케이션 실행시키기
____SparkSession 설정하기
____SparkSession 생성하기
____코드 모듈화하기
____잡 서브밋하기
____실행 상태 모니터링하기
__데이터브릭스 잡
__요약

출판사 서평

추천의 글

파이스파크(PySpark) 첫걸음을 위해 이 책을 선택한 것에 감사한다. 독자 여러분도 나처럼 많은 기대를 하고 있을 것이라 생각한다. 데니가 나에게 이 책에 대해 이야기했을 때 매우 기뻤다. 아파치 스파크(Apache Spark)를 멋진 플랫폼으로 만들기 위해 가장 중요한 것은 자바/스칼라(Scala)/JVM과 파이썬(또는 R)을 동시에 지원하도록 하는 것이다. 이전의 스파크 책들은 코어 언어에 집중했거나 JVM 언어만을 집중적으로 다뤘다. 이 책을 통해 숙련된 스파크 교육자로부터 파이스파크를 배울 수 있다. 두 ... 더보기

Klover 리뷰 (0)

북로그 리뷰 (0) 쓰러가기

북로그 리뷰는 본인 인증 후 작성 가능합니다.
책이나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 내용은 비공개 처리 될 수 있습니다.
※ 북로그 리뷰 리워드 제공 2021. 4. 1 종료

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매 후 문장수집 작성 시, 리워드를 제공합니다. 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①서양도서-판매정가의 12%, ②일본도서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함
바로가기
  • 우측 확장형 배너 2
  • 우측 확장형 배너 2
최근 본 상품