본문내용 바로가기
MD의선택 무료배송 소득공제

[출간예정] 파이썬을 활용한 스파크 프로그래밍 빅데이터 분석을 위한 스파크 활용법

데이터 과학
제프리 에이븐 지음 | 송주경 옮김 | 에이콘출판 | 2019년 08월 27일 출간
  • 정가 : 30,000원
    판매가 : 27,000 [10%↓ 3,000원 할인]
  • 통합포인트 :
    [기본적립] 1,500원 적립 [5% 적립] 안내 [추가적립] 5만원 이상 구매 시 2천원 추가적립 [회원혜택] 우수회원 3만원 이상 구매 시 2~4% 추가적립
  • 추가혜택 : 카드/포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 예약판매 : 2019년 8월 28일 출고 예정 배송일정 안내

알립니다.

  • 본 도서는 2019년 8월 28일 출고 예정인 출간예정도서 입니다. 단, 출판사의 사정으로 출간이 지연될 수 있으니, 이점 양해 부탁드립니다.
  • 본 도서는 출판사의 사정으로 출간이 지연될 수 있으며,
    본 도서와 같이 구매하신 상품은 본 도서의 출간과 더불어 출고되오니 이점 유의하시기 바랍니다.
  • 출간예정 도서의 경우 실제 출간 후 도서정보가 달라질 수 있습니다. 이 점 양해 부탁드립니다.
장바구니 담기 바로구매 선물하기 보관함 담기 출간알림신청
상품상세정보
ISBN 9791161753287(1161753281)
쪽수 388쪽
크기 188 * 235 mm 판형알림
이 책의 원서/번역서 Data Analytics with Spark Using Python/Jeffrey Aven

책소개

이 책이 속한 분야

스파크는 빅데이터 분석을 위한 가장 핵심적인 기술 중 하나다. 이 책에서는 스파크의 개념 및 설치, 활용법의 상세한 설명으로 독자들의 이해를 돕는다. 또한 스파크와 통합되는 타 기술들과 빅데이터 분석에 관한 전반적인 지식도 다룬다. 대중적으로 익숙한 파이썬을 활용한 소스 코드로 독자들이 쉽게 따라 하며 학습할 수 있도록 구성했다.

저자소개

저자 : 제프리 에이븐

호주 멜버른에 본사를 둔 독립적인 빅데이터, 오픈 소스 소프트웨어 및 클라우드 컴퓨팅 전문가다. 고급 컨설턴트이자 강사이며, 『Apache Spark in 24 Hours, Sams Teach Yourself』(Sams Publishing, 2016), 『Apache Spark in 24 Hours, Sams Teach Yourself』(Sams Publishing, 2016) 등 여러 권의 책을 저술했다.

역자 : 송주경

서강대학교 컴퓨터공학과를 졸업한 후, 삼성전자와 LG전자 연구소에서 연구원으로 재직했다.
현재 기업 및 대학에서 예술과 기술 융합, 생활 속 과학, 창의적 사고와 코딩, 아트워크 실습 등 다수 강의를 하고 있으며, 관련 컨설팅도 진행하고 있다.

작가의 말

★ 지은이의 말 ★
스파크는 빅데이터 기술 파동과 불가분의 관계에 있는 빅데이터용 일류 데이터 처리 플랫폼이자 프로그래밍 인터페이스다. 이 글을 쓰는 시점에서 스파크는 아파치 소프트웨어 재단(ASF, Apache Software Foundation) 프레임워크에서 가장 활발한 오픈 소스 프로젝트 중 하나이며, 가장 적극적인 오픈 소스 빅데이터 프로젝트 중 하나다.
분석, 데이터 처리, 데이터 과학 커뮤니티에서부터 스파크에 관한 관심이 많아지면서, 스파크의 역할 및 제공 목적, 이점 및 빅데이터 분석을 위한 스파크 활용 방법 등을 이해하는 것은 더욱 중요해졌다. 이 책은 이 모든 것을 다룬다.
스파크 전용의 많은 다른 출판물에서 거의 독점적으로 스칼라 API를 사용하는 것과 달리, 스파크 또는 파이스파크용 파이썬 API에 중점을 둔다. 파이썬은 아직은 널리 사용되지 않아서 익숙하지 않은 사람들도 쉽게 이해할 수 있는 직관적인 인터프리터 언어이므로 이 책의 기초로 선택됐다. 또한 파이썬은 스파크 커뮤니티의 주요 사용자인 데이터 과학자들에게 매우 인기 있는 프로그래밍 언어이기도 하다.
이 책은 스파크와 하둡의 사전 지식과 경험 여부에 상관없이, 빅데이터와 스파크를 처음부터 다루는 것부터 시작하므로, 기본 작동 방식과 방대한 기능을 최대한 활용하는 방법 등 전체적인 과정을 배우고고자 하는 경우 매우 유용하다. 이 책 전체에서 하둡, HBase, 카프카 등과 같이 인접한 보완 플랫폼, 프로젝트 및 기술에 관해 배우고, 이것이 스파크와 어떻게 상호작용하는지 살펴본다.
이 책이 빅데이터 및 스파크 전문가가 되기 위한 여정에 밑거름이 되기를 바란다.

목차

1부. 스파크 기초

1장. 빅데이터, 하둡 및 스파크 소개

__빅데이터, 분산 컴퓨팅 및 하둡 소개
____빅데이터와 하둡의 간략한 역사
____하둡
__아파치 스파크 소개
____아파치 스파크 배경
____스파크 사용
____스파크 프로그래밍 인터페이스
____스파크 프로그램의 제출 유형
____스파크 응용 프로그램의 입력/출력 유형
____스파크 RDD
____스파크와 하둡
__파이썬을 이용한 함수 프로그래밍
____파이썬 함수 프로그래밍에서 사용되는 데이터 구조
____파이썬 객체 직렬화
____파이썬 함수형 프로그래밍 기초
__요약

2장. 스파크 배포

__스파크 배포 모드
____로컬 모드
____스파크 독립실행형
____얀에서의 스파크
____메소스에서의 스파크
__스파크 설치 준비
__스파크 가져오기
__리눅스나 맥 OS X에서 스파크 설치하기
__윈도우에 스파크 설치하기
__스파크 설치 탐색
__다중노드(Multi-Node) 스파크 독립실행형 클러스터 배포
__클라우드에서 스파크 배포
____아마존 웹 서비스
____구글 클라우드 플랫폼
____데이터브릭스
__요약

3장. 스파크 클러스터 아키텍처의 이해

__스파크 응용 프로그램의 해부
____스파크 드라이버
____스파크 작업자 및 실행자
____스파크 마스터와 클러스터 매니저
__독립실행형 스케줄러를 사용하는 스파크 응용 프로그램
____얀에서 실행되는 스파크 응용 프로그램
__얀에서 실행되는 스파크 응용 프로그램의 배포 모드
____클라이언트 모드
____클러스터 모드
____로컬 모드 재검토
__요약

4장. 스파크 프로그래밍 기초 학습
__RDD의 소개
__RDD에 데이터 로드하기
____하나 이상의 파일에서 RDD 생성하기
____하나 이상의 텍스트 파일에서 RDD를 만드는 방법
____오브젝트 파일에서 RDD 만들기
____데이터 소스에서 RDD 만들기
____JSON 파일에서 RDD 만들기
____프로그래밍 방식으로 RDD 생성하기
__RDD 연산
____주요 RDD 개념
____기본 RDD 변환
____기본 RDD 액션
____PairRDD의 변환
____맵리듀스 및 워드 카운트(Word Count) 연습
____조인(Join) 변환
____스파크에서 데이터세트 조인하기
____세트(Sets)의 변환
____숫자(numeric) RDD의 변환
__요약

2부. 스파크 응용

5장. 스파크 코어 API를 사용한 고급 프로그래밍

__스파크의 공유변수
____브로드캐스트 변수
____어큐뮬레이터
____연습: 브로드캐스트 변수 및 어큐뮬레이터 사용
__스파크의 데이터 파티셔닝
____파티셔닝 개요
____파티션 제어
____함수 재분할
____파티션 별 또는 파티션 인식 API 메소드
__RDD 저장 옵션
____RDD 리니지 재검토
____RDD 저장 옵션
____RDD 캐싱
____RDD 유지
____RDD를 유지하거나 캐시할 시기 선택하기
____RDD 체크포인트 지정
____연습: RDD 체크포인트
__외부 프로그램으로 RDD 처리하기
__스파크를 사용해 데이터 샘플링하기
__스파크 응용 프로그램 및 클러스터 구성 이해하기
____스파크 환경변수
____스파크 구성 속성
__스파크 최적화하기
____초기 필터, 자주 필터
____연관연산 최적화하기
____함수 및 클로저의 영향 이해하기
____데이터 수집을 위한 고려 사항
____응용 프로그램 조정 및 최적화를 위한 구성 매개변수
____비효율적인 파티셔닝 피하기
____응용 프로그램 성능 문제 진단하기
__요약

6장. 스파크로 SQL 및 NoSQL 프로그래밍하기
__스파크 SQL 소개
____하이브 소개
____스파크 SQL 아키텍처
____데이터프레임 시작하기
____데이터프레임 사용
____캐싱, 지속 및 데이터프레임 재구성
____데이터프레임 출력 저장
____스파크 SQL 액세스하기
____연습: 스파크 SQL 사용하기
__NoSQL 시스템에서 스파크 사용하기
____NoSQL 소개
____HBase와 스파크 사용하기
____연습: HBase로 스파크 사용하기
____카산드라와 함께 스파크 사용하기
____DynamoDB에서 스파크 사용하기
____기타 NoSQL 플랫폼
__요약

7장. 스파크를 사용한 스트림 처리 및 메시징

__스파크 스트리밍 소개
____스파크 스트리밍 아키텍처
____DStream 소개
____연습: 스파크 스트리밍 시작하기
____State 연산
____슬라이딩 윈도우 연산
__구조화된 스트리밍
____구조화된 스트리밍 데이터 소스
____구조화된 스트리밍 데이터 싱크
____출력 모드
____구조화된 스트리밍 연산
__메시징 플랫폼에서 스파크 사용
____아파치 카프카
____연습: 카프카와 스파크 사용하기
____아마존 킨시스
__요약

8장. 스파크를 사용한 데이터 과학 및 머신 러닝 소개

__스파크 및 R
____R 소개
____R에 스파크 사용하기
____연습: SparkR과 함께 RStudio 사용하기
__스파크로 머신 러닝하기
____머신 러닝 입문서
____스파크 MLlib를 사용한 머신 러닝
____연습: 스파크 MLlib를 사용해서 Recommender 구현하기
____스파크 ML을 사용한 머신 러닝
__스파크와 함께 노트북 사용하기
____주피터(IPython) 노트북과 스파크 사용하기
____스파크에서 아파치 제플린 노트북 사용하기
__요약

책 속으로

★ 옮긴이의 말 ★

빅데이터는 기존의 응용 프로그램으로는 효과적으로 처리할 수 없는 엄청난 양의 데이터를 말합니다. 혹자는 빅데이터를 이렇게 정의하기도 합니다. “빅데이터란 인사이트와 의사결정, 자동화 과정을 강화할 수 있는 정보 처리 과정의 혁신적인 형태이며, 높은 비용 효율을 요구하고 방대하며, 빠르고 다양한 형태의 정보 자산(assets)이다.” 즉, 빅데이터를 효과적으로 분석하면 혁신적인 인사이트를 발견하고 데이터 기반의 효과적인 의사결정을 내릴 수 있습니다. 최근에는 대기업, 스타트업 기업 등 대부분의 기업이 데이터 ... 더보기

출판사 서평

★ 이 책에서 다루는 내용 ★

■ 빅데이터 및 하둡 에코 시스템에서 스파크의 진화하는 역할 이해
■ 다양한 배포 모드를 사용해 스파크 클러스터 생성
■ 스파크 클러스터 및 응용 프로그램의 제어 및 최적화
■ 마스터 스파크 코어 RDD API 프로그래밍 기술
■ 공유 변수, RDD 스토리지 및 파티셔닝을 포함한 고급 APl 플랫폼 구성으로 스파크 루틴을 확장, 가속 및 최적화
■ SQL 및 비관계형 데이터 저장소로 스파크를 효율적으로 통합
■ 스파크 스트리밍 및 아파치 카프카를 사용한 스트림 처리 및 메시징 수행
■... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 분야의 베스트

더보기+

이 분야의 신간

  • 로버트 C. 마틴
    26,100원
  • 전은재
    17,820원
  • 한정희
    18,000원
  • 권학봉
    38,250원
  • 문준희(수다쟁이쭌)
    17,820원
더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품