본문내용 바로가기
MD의선택 무료배송 이벤트 사은품 경품

스파크 2.0으로 하는 고속 스마트 빅데이터 분석과 처리 3/e 표준 SQL과 진화한 데이터 표현 지원

acorn+PACKT 시리즈
크리슈나 산카르 지음 | 조효성 옮김 | 에이콘출판 | 2017년 09월 22일 출간

이 책의 다른 상품 정보

  • 정가 : 30,000원
    판매가 : 27,000 [10%↓ 3,000원 할인]
  • 제휴할인가 : 20,250 교보-롯데카드 최대 25% 청구할인 카드/포인트 안내
  • 통합포인트 :
    [기본적립] 1,500원 적립 [5% 적립] 안내 [추가적립] 5만원 이상 구매 시 2천원 추가적립 [회원혜택] 우수회원 5만원 이상 구매 시 2~3% 추가적립
  • 추가혜택 :
    naver네이버페이 결제 시 무조건 1% 추가 적립 payco페이코 결제 시 최대 1만원 적립 okcashbag 실 결제 금액의 0.5% 적립 안내
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    12월 14일 출고 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 영업점에서 직접 수령 안내
행사도서 포함, 5만원이상 구매시 2018년 캘린더 증정
닫기
  • 나만의 경쟁력, 동양고전 김원중 명품고전 독서대 증정
  • 비모 벽시계
  • 자기계발:버리거나 혹은 얻거나
  • 경제경영 메인이벤트

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 올해의 IT도서 트렌드, 영예의 주인공은 어떤 책일까요?
    2017.11.28 ~ 2017.12.31
  • 에이콘의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2019.12.31
  • 설문참여 시 매월 5명 추첨통해 선물을 드립니다.
    10. 14 ~ 12. 31
상품상세정보
ISBN 9791161750569(1161750568)
쪽수 356쪽
크기 190 * 237 * 22 mm /846g 판형알림
이 책의 원서 Fast data processing with Spark 2. 3/e/Sankar, Krishna

책소개

이 책이 속한 분야

기존의 스파크 버전 1.X 버전에서 좀 더 업그레이드 되어 빅데이터를 고속으로 처리할 수 있는 다양한 기능을 제공한다. 기능이 확장된 MLlib와 그래프 X를 이용해서 다양한 정형, 비정형 데이터를 분석할 수 있고, 특히 데이터 과학자들과 데브옵스 엔지니어가 필요할 수 있는 파큇과 같은 데이터 포맷과 필요한 데이터를 다양한 데이터 포맷으로 로딩할 수 있는 스파크 SQL 기능을 설명하고 있다. 마지막으로 케이스 스터디에는 알파고 트윗 분석을 통해 독자의 지적 호기심을 채워줄 수 있을 뿐 아니라 실무 개발자에게 유용한 가이드 역할을 제공하고 있어, 빅데이터 분석을 학습하는 초보자와 현업에서 사용하고 있는 개발자에게 유용한 정보를 제공한다.

이 책의 총서

총서 자세히 보기

저자소개

저자 : 크리슈나 산카르

저자 크리슈나 산카르(Krishna SanKar)는 자율 주행 자동차 분야에 주력하고 있는 볼보에서 인공지능 데이터 과학자로 근무하고 있는 선임 스페셜 리스트다. 일찍이 http://cadenttech.tv에서 데이터 과학자 팀 책임자, 다국적 기업인 타타의 미국 지사에서 소프트웨어 설계 팀장 겸 데이터 과학자, 생물 정보학 관련 스타트업 회사에서 데이터 과학의 수장 역할, 그리고 시스코에서 우수한 엔지니어라는 이력을 갖고 있다. 스트라타(Strata) SJC의 ML 튜토리얼, 런던 2016, 스파크 써밋, 스트라타-스파크 캠프, 오스콘(OSCON), 파이콘(PyCon), 파이데이타(PyData), 로봇 규칙의 질서에 관한 저서, 빅데이터-Best of the Worst, NFL 예측, 스파크, 데이터 과학, 머신 러닝, 소셜 미디어 분석을 포함한 다양한 컨퍼런스에서 연사 활동을 해 왔을 뿐 아니라, 미해군 대학원에서 강사로 활동했던 적도 있다. 가끔 https://doubleclix.wordpress.com/에 다양한 기술 내용을 작성한다. 취미 활동으로 드론을 날리거나 레고 로봇을 조립하므로 세인트루이스 FLL 세계 대회의 로봇 설계 심판으로 활동하고 있는 모습을 볼 수 있다.

역자 : 조효성

역자 조효성은 광운대학교 전자공학과를 졸업하고 동대학원 임베디드 소프트웨어 공학과에서 안드로이드와 블루투스를 전공했다. 과거 오비고에서 웹 개발자로 활동하고 있는 노드에 관심이 많은 행복 개발자다. 행복한 HMI WebApp 개발 팀에서 차량용 플랫폼에 올라가는 웹 앱을 개발하면서 많은 경험과 실력을 쌓았다. 현재 브라이니클에 근무하면서 서버와 클라이언트를 개발하며, 빅데이터 분석에 관심이 많고, 실제 데이터 분석 사례를 만들고 있다.
번역 작업을 통해 책을 읽는 모든 사람에게 꼭 도움이 되기를 바라는 마음을 늘 품고 있다. 에이콘출판사에서 출간한 『노드로 하는 웹 앱 테스트 자동화』(2013), 『익스프레스 프레임워크로 하는 노드 웹 앱 프로그래밍』(2014), 『Storm 실시간 빅데이터 분석 플랫폼』(2014), 『안드로이드 음성 인식 애플리케이션 개발』(2014), 『Spark로 하는 고속 빅데이터 분석과 처리』(2014), 『AngularJS 반응형 웹앱 개발과 성능 최적화』(2015), 『리액트 정복하기』(2016)를 번역했다.

작가의 말

★ 지은이의 말★
아파치 스파크는 데이터 분석과 빅데이터 개발자들의 상상력을 현실로 만들었다. 간단히 말해 스파크를 이용하면 분산 컴퓨팅 기술을 연구실 규모 혹은 제품 레벨로 이용할 수 있다. 지금까지도 수집-저장-변환(collect-store-transform) 파이프라인은 분석과 머신 러닝 모델과도 구분되는 추론-모델(Reason-Model) 파이프라인 데이터 과학과 또 다르게 구분된다. 현재 스파크와 더불어 카프카와 같은 기술을 이용해서 데이터 관리와 데이터 과학 파이프라인을 끊김 없이 확장할 수 있다. 또한 대규모의 데이터셋에서 데이터 과학 모델을 모델링할 수 있으며, 이때 그저 샘플 데이터만 있어도 된다.
그리고 어떤 데이터 모델을 만들더라도 제품(물론 엔지니어링에 작업을 추가해서 새로운 ‘기능들’을 더하는 것을 포함한다)으로 배포할 수 있다. 이 책의 목적은 데이터 엔지니어가 스파크 플랫폼의 기초에 익숙할 수 있게 하는 것과 더불어 스파크를 다루는 좀 더 발전적인 역량을 제공하는 데 있다.

★ 옮긴이의 말★
아파치 스파크는 IBM, 알리바바, 텐센트, 데이터브릭스 등 유수 해외 기업들이 데이터 분석을 위해 끊임없이 확장해서 사용하고 있는 빅데이터 분석 프레임워크다. 이 아파치 스파크의 상승세는 실로 놀랍다. 특히 IBM은 향후 1년간 스파크를 이용해서 100만 데이터 사이언티스트 육성 계획까지 발표했다.
이 책은 스파크 1.X버전에서 업그레이드된 2.0버전을 다루고 있는데, 기존 버전에서 좀 더 확장된 기능을 설명하며 개별 기능을 설명할 때마다 스파크 셸을 이용해서 독자가 스스로 할 수 있도록 가이드를 제시한다. 또한 책의 마지막 부분에는 케이스 스터디를 통해 단편적인 기능 테스트를 넘어 트윗과 같은 상용 데이터를 이용해서 데이터를 분석하는 방법을 자세히 설명한다. 따라서 독자에게는 스파크 애플리케이션 개발을 직접 체험해볼 수 있는 기회를 제공한다. 한편으로는 2판과 큰 차이를 못 느낄 수 있다고 생각하겠지만,스파크의 기초 지식을 습득한 개발자의 경우 1.X버전 대비 스파크 2.0의 확장 기능을 학습하고, 그 기능을 토대로 실전 예제 프로그램을 경험할 수 있는 좋은 기회가 될 것이며, 스파크 초보자에게는 스파크 기초 지식과 더불어 알파고의 분석 방법을 엿볼 수 있는 의미 있는 기회가 될 것이다.

목차

1장. 스파크 설치와 클러스터 설정
__폴더 구조와 규약
__미리 빌드된 배포 버전 설치
__스파크 소스 빌드
____스파크 소스 다운로드
____메이븐 환경에서 스파크 소스 컴파일
____컴파일 스위치
____스파크 설치 테스트
__스파크 토폴로지
__싱글 머신
__EC2에서 스파크 구동
____EC 스크립트 다운로드
____EC2 스크립트로 EC2 환경에서 스파크 구동
____일래스틱 맵리듀스 환경에 스파크 배포
__체프(옵스코드)를 이용한 스파크 배포
__메소스 환경에서 스파크 배포
__얀 환경에서 스파크 구동
__스파크 독립 모드
__참고 자료
__요약

2장. 스파크 셸
__스파크 셸
____스파크 셸 종료
____스파크 셸을 이용한 예제 코드 실행
__단순한 텍스트 파일 로딩
__S3에서 대화 형태로 데이터 로딩
____파이썬을 이용한 스파크 셸 구동
__요약

3장. 스파크 애플리케이션 구현과 동작
__스파크 애플리케이션 구현
__아이파이썬을 이용한 데이터 랭글링
__이클립스를 이용한 스파크 개발
__기타 IDE를 이용한 스파크 개발
__메이븐을 이용한 스파크 잡 개발
__기타 개발 도구를 이용한 스파크 잡 개발
__참고 자료
__요약

4장. SparkSession객체 생성
__SparkSession과 SparkContext
__SparkSession 객체 생성
__스파크컨텍스트의 메타데이터
__공유 자바 API와 스칼라 API
__파이썬
__아이파이썬
__참고 자료
__요약

5장. 스파크의 데이터 로딩과 저장
__스파크 추상화
____RDDs
__데이터 유형
__데이터 유형과 데이터셋, 데이터프레임, RDD
__데이터를 RDD에 로딩
__데이터 저장
__참고 자료
__요약

6장. RDD 조작
__스칼라와 자바를 이용한 RDD 조작
____스칼라 RDD 메소드
____PairRDD 클래스를 조합하는 메소드
____기타 PairRDD 메소드
____더블 RDD 메소드
____범용 RDD 메소드
____자바 RDD 메소드
__파이썬을 이용한 RDD 조작
____표준 RDD 메소드
____PairRDD 메소드
__참고 자료
__요약

7장. 스파크 2.0 컨셉
__이 책의 나머지에서 다룰 코드와 데이터셋
____코드
____IDE
____아이파이썬 스타트업과 테스트
____데이터셋
__데이터 과학자와 스파크 특징
____데이터 과학자 데브옵스 실무자는 누구인가?
____데이터 레이크 아키텍처
__스파크 버전 2.0과 그 이상
__아파치 스파크: 진화
__아파치 스파크: 풀 스택
__빅데이터 저장소의 예술: 파큇
____칼럼 프로젝션과 데이터 파티션
____압축
____스마트한 데이터 스토리지와 서술 푸시다운
____스키마 진화를 위한 지원
____성능
__참고 자료
__요약

8장. 스파크 SQL
__스파크 SQL 아키텍처
__명확한 스파크 SQL 사용 방법
____스파크 2.0의 스파크 SQL
__스파크 SQL 프로그래밍
____데이터셋과 데이터프레임
____간단한 데이터 테이블에 접근할 수 있는 SQL
__참고 자료
__요약

9장. 데이터셋과 데이터프레임의 기초: 데이터 과학자를 위한 핵심 가치
__데이터셋: 간단한 소개
__데이터셋 API: 개요
____org.apache.spark.sql.SparkSession과 pyspark.sql.SparkSession
____org.apache.spark.sql.Dataset/pyspark.sql.DataFrame
____org.apache.spark.sql.{Column, Row}/pyspark.sql.(Column, Row)
____org.apache.spark.sql.functions/pyspark.sql.functions
__데이터셋 인터페이스와 메소드
____읽기/쓰기 동작
____통합 메소드
____통계 메소드
____수학 메소드
____데이터셋을 이용한 데이터 랭글링
____원하는 모든 대답을 위한 마지막 데이터 통합
__참고 자료
__요약

10장. 빅데이터를 위한 스파크
__파큇:효과적이면서 상호 운용할 수 있는 빅데이터 포맷
____파큇 포맷으로 파일 저장
____파큇 파일 로딩
____처리를 완료한 RDD를 파큇 포맷으로 저장
__HBase
____HBase에서 데이터 로딩
____데이터를 HBase에 저장
____기타 HBase 동작
__참고 자료
__요약

11장. 스파크 ML 파이프라인을 이용한 머신 러닝
__스파크의 머신 러닝 알고리즘 테이블
__스파크 머신 러닝 API: ML 파이프라인과 MLlib
__ML 파이프라인
__스파크 ML 예시
__API 알고리즘
__기본적인 통계
____데이터 로드
____통계 계산
__선형 회귀
____데이터 변환과 특징 추출
____데이터 분리
____회귀 모델을 이용한 예측
____모델 평가
__데이터 분류
____데이터 로드
____데이터 변환과 특징 추출
____데이터 분리
____회귀 모델
____회귀 모델을 이용한 예측
____모델 평가
__클러스터링
____데이터 로드
____데이터 변환과 특징 추출
____데이터 분리
____회귀 모델을 이용한 예측
____모델 평가와 해석
____모델 해석 클러스터링
__추천
____데이터 로드
____데이터 변환과 특징 추출
____데이터 분리
____모델을 이용한 예측
____모델 평가와 해석
__하이퍼 파라미터
__마지막으로 알아둘 것
__참고 자료
__요약

12장. 그래프X
__그래프와 그래프 처리 개요
__스파크 그래프X
__그래프X: 연산 모델
__첫 번째 예시:그래프
__그래프 구성
__그래프X API의 전체 구조
__구조적인 API
____출력 결과에 어떤 문제가 있는가?
__커뮤니티, 연합, 내구성
__알고리즘
____그래프 병렬 계산 API
__파티션 전략
__케이스 스터디:알파고 트윗 분석
____데이터 파이프라인
____그래프X 모델링
____그래프X처리와 알고리즘
__참고 자료
__요약

출판사 서평

★ 이 책에서 다루는 내용 ★
■ 독자의 클러스터 환경에서 스파크를 설치하고 환경 설정하는 방법
■ 스파크 셸을 이용한 분산 형태의 애플리케이션 프로토타입 개발
■ 새로운 데이터프레임 API를 이용한 데이터 랭글링
■ 스파크 분산 표현 데이터(RDDs)를 이용해서 통신할 수 있는 다양한 방법 분석
■ SQL 형태의 쿼리 문법 기반의 스파크 쿼리
■ 스파크가 빅 데이터를 처리하는 방법
■ 데이터 과학자와 데이터 엔지니어가 스파크 프레임워크를 활용할 수 있는 방법
■ 고 확장성 알고리즘을 이용한 머신 러닝 시스템 구현
... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트 적립은 작성 후 다음 날 혹은 해당 도서 출고 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서번역서

안내

이 분야의 베스트

더보기+

이 분야의 신간

더보기+

바로가기

  • 우측 확장형 배너 2

최근 본 상품