본문내용 바로가기
MD의선택 이벤트 무료배송

9가지 사례로 익히는 고급 스파크 분석 현실 세계 빅데이터로 배우는 가장 실용적인 스파크 활용서

샌디 라이자 , 유리 레이저슨, 션 오언, 조시 윌스 지음 | 박상은, 권한철, 서양주 옮김 | 한빛미디어 | 2016년 07월 01일 출간
  • 정가 : 26,000원
    판매가 : 23,400 [10%↓ 2,600원 할인]
  • 제휴할인가 : 17,550 교보-롯데카드 최대 25% 청구할인 카드/포인트 안내
  • 통합포인트 : 1,300 적립 [5% 적립]
  • 추가혜택 :
    naver네이버페이 결제 시 무조건 1% 추가 적립 payco페이코 결제 시 최대 1만원 적립 okcashbag 실 결제 금액의 0.5% 적립 안내
  • 배송비 : 무료 배송비 안내
  • 도착예정일 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(21일,토) 도착 예정 도착 예정일 안내
  • 바로드림 : 인터넷으로 주문하고 영업점에서 직접 수령 안내
행사도서 포함, 5만원이상 구매시 선택 (북백 2000P, 북파우치 1500P차감)
닫기
  • 행사도서 포함, 5만원이상 구매시 선택 (북백 2000P, 북파우치 1500P차감)
  • 단독 나를 지키는 구급함 증정 강상중 사유의 여정을 만나다
  • 단독 유시민 사인 피크닉 매트 증정 생각의 피크닉, 유시민 읽기
  • 독서노트 + 스티커 세트 증정 가을이라, 쓰고 읽는다
  • 내맘같은 내인생
  • 재테크 슈퍼 그뤠잇
  • 세상 모든 것의 기원을 만나다 오리진 캐릭터 스티치 노트 증정
  • 스무 살 패브릭 포스터 증정 O tvN 어쩌다 어른 X 교보문고 단독혜택
  • 어린이 가을독서 추천도서전

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 동료 개발자들의 책장을 살펴보세요 :)
    2017.08.31 ~ 2018.12.31
  • 우리는 반드시 기억해야 합니다.
    2017.08.11 ~ 2017.11.30
  • #리드잇 페이스북 페이지 팔로우 하시고, 신간소식 빠르게 받아보..
    2017.06.22 ~ 2025.07.31
  • 설문참여 시 매월 5명 추첨통해 선물을 드립니다.
    10. 14 ~ 12. 31
상품상세정보
ISBN 9788968482892(8968482896)
쪽수 332쪽
크기 183 * 235 * 14 mm /604g 판형알림
이 책의 원서 Advanced Analytics with Spark/Josh Wills

책소개

이 책이 속한 분야

다양한 현실 세계 예제로 스파크의 진면목을 경험한다!

이 책은 독자에게 대량의 데이터셋을 가지고 스파크를 활용해 복잡한 분석을 실제로 해보는 생생한 느낌을 전달한다. 단순히 모델을 구축하고 평가하는 데 그치지 않고, 전체 파이프라인을 돌아보며 데이터 정제, 전처리, 데이터 조사, 실제 제품으로 만들기까지를 보여준다. 이러한 과정을 다양한 분야에서 가져온 현실 예제에 맞게 교차 최소 제곱 추천 알고리즘, 의사 결정 나무(결정 트리), K-평균 군집화, 숨은 의미 분석, 세션화, 몬테카를로 시뮬레이션 등의 기법을 동원해 풀어본다.

상세이미지

9가지 사례로 익히는 고급 스파크 분석 도서 상세이미지

저자소개

저자 : 샌디 라이자

저자 샌디 라이자 Sandy Ryza는 클라우데라의 선임 데이터 과학자이자 아파치 스파크 프로젝트의 활동적인 컨트리뷰터다. 최근에 클라우데라에서 스파크 개발을 이끌었으며 지금은 고객들이 스파크를 사용해 다양한 형태의 분석을 구현하는 데 도움을 주고 있다. 또한 하둡 프로젝트의 관리 위원회 멤버이기도 하다.

저자 : 유리 레이저슨

저자 유리 레이저슨 Uri Laserson는 클라우데라의 선임 데이터 과학자이며, 하둡 생태계에서의 파이썬 활용에 주력하고 있다. 또한 고객들이 다양한 문제에 하둡을 사용할 수 있도록 지원하고 있는데, 특히 생명 과학과 헬스 케어에 집중하고 있다. 이전에는 MIT에서 생의공학(biomedical engineering) 박사 과정 중에 Good Start Genetics라는 차세대 검진 회사를 공동 창업했다.

저자 : 션 오언

저자 션 오언 Sean Owen은 클라우데라의 유럽/중동/아프리카 대상 데이터 과학팀의 디렉터다. 아파치 머하웃 기계 학습 프로젝트의 커미터이자 중요한 컨트리뷰터로, 머하웃의 Taste 추천 프레임워크를 개발했다. 션은 아파치 스파크의 커미터이기도 하다. 스파크, 스파크 스트리밍, 그리고 카프카로 개발한 하둡에서 동작하는 실시간 대규모 학습을 위한 Oryx 프로젝트(예전에는 Myrrix라고 불렸던)를 만들었다.

저자 : 조시 윌스

저자 조시 윌스 Josh Wills는 슬랙(Slack) 데이터 엔지니어링팀의 디렉터다. 전에는 클라우데라의 데이터 과학팀의 선임 디렉터로써 고객들과 함께 다양한 업계의 하둡 기반 솔루션을 개발했다. 자바로 최적화된 맵리듀스와 스파크 파이프라인을 만드는 아파치 크런치(Apache Crunch) 프로젝트의 창설자이며 커미터를 맡고 있다. 클라우데라에 합류하기 전에는 구글에서 광고 경매 시스템을 개발했고, Google+에서 사용하는 분석 인프라의 개발을 이끌었다.

역자 : 박상은

역자 박상은은 컴퓨터에 붙은 그림을 보고 애플이라는 단어의 뜻을 알게 된 이 땅의 흔한 개발자 중 한 사람이다. 포항공과대학교에서 전산학을, 한국과학기술원에서 인공지능을 공부했으며, 그 덕분에 알파고와 스카이넷을 구분할 줄 아는 지혜를 갖추게 되었다. 메일, 브라우저, CMS, 도서 관리 시스템 등 일관성을 찾기 어려운 다양한 프로젝트에 참여했으며 그 덕에 물에 물 탄 듯한 경력이 완성되는 듯했으나, 최근 몇 년은 데이터 처리와 하둡과 관련한 연구 개발에 집중하고 있다. 현재 에스코어에서 하둡 생태계를 이용한 데이터 플랫폼인 BigPod™ 개발에 참여하고 있으며, 특히 실시간으로 처리되는 데이터의 수집과 시각화 사이의 시간 간격을 줄이는 데 관심이 있다.

역자 : 권한철

역자 권한철은 에스코어의 빅데이터 플랫폼인 BigPod™ 개발자로 빅데이터 분석에 스파크를 활용하는 데 주력하고 있다. 특히 실시간 스트리밍 데이터 분석과 통계 및 기계 학습 알고리즘을 활용한 데이터 분석에 관심이 많으며, 인간 생활을 이롭게 하는 기술과 제품을 만드는 것을 개발자로서의 삶의 목표로 하고 있다.

역자 : 서양주

역자 서양주는 한국과학기술원 학부에서 수학을, 서울대학교에서 석사과정으로 통계학을 전공하였으며, 티맥스소프트를 시작으로 개발자로서 일하게 되었다. 그 후 에스코어에서 2013년 하둡과 스파크를 접한 이후로 빅데이터 분석 업무를 주 업무로 수행하게 되었다. 현재는 카카오 RUBICS TF에서 실시간 콘텐츠 추천 업무를 하고 있다.

목차

1장. 빅데이터 분석하기
__1.1 데이터 과학의 어려움
__1.2 아파치 스파크란
__1.3 이 책에 관하여

2장. 스칼라와 스파크를 활용한 데이터 분석
__2.1 데이터 과학자를 위한 스칼라
__2.2 스파크 프로그래밍 모델
__2.3 레코드 링크
__2.4 스파크 셸과 SparkContext 시작하기
__2.5 클러스터에서 클라이언트로 데이터 가져오기
__2.6 클라이언트에서 클러스터로 코드 가져가기
__2.7 튜플을 사용한 데이터 구조화와 케이스 클래스
__2.8 집계
__2.9 히스토그램 만들기
__2.10 연속 변수에 대한 요약 통계량
__2.11 요약 통계량을 계산하는 재사용 가능한 코드 만들기
__2.12 간단한 변수 선택과 점수 매기기
__2.13 한 걸음 더 나아가기

3장. 오디오스크로블러 데이터셋으로 음악 추천하기
__3.1 데이터셋
__3.2 교차 최소 제곱 추천 알고리즘
__3.3 데이터 준비하기
__3.4 첫 번째 모델 만들기
__3.5 추천 결과의 추출 검사하기
__3.6 추천 품질 평가하기
__3.7 AUC 계산하기
__3.8 하이퍼파라미터 선택하기
__3.9 추천 결과 만들기
__3.10 한 걸음 더 나아가기

4장. 의사 결정 나무로 산림 식생 분포 예측하기
__4.1 회귀로 돌아와서
__4.2 벡터와 특징
__4.3 학습 예제
__4.4 의사 결정 나무와 랜덤 포레스트
__4.5 Covtype 데이터셋
__4.6 데이터 준비하기
__4.7 첫 번째 의사 결정 나무
__4.8 의사 결정 나무 하이퍼파라미터
__4.9 의사 결정 나무 튜닝하기
__4.10 범주형 특징 다시 살펴보기
__4.11 랜덤 포레스트
__4.12 예측하기
__4.13 한 걸음 더 나아가기

5장. K-평균 군집화로 네트워크 이상 감지하기
__5.1 이상 감지
__5.2 K-평균 군집화
__5.3 네트워크 침입
__5.4 KDD 컵 1999 데이터셋
__5.5 첫 번째 군집화하기
__5.6 k 선정하기
__5.7 R에서 시각화
__5.8 특징 정규화
__5.9 범주형 변수
__5.10 엔트로피와 함께 레이블 활용하기
__5.11 군집화하기
__5.12 한 걸음 더 나아가기

6장. 숨은 의미 분석으로 위키백과 이해하기
__6.1 단어-문서 행렬
__6.2 데이터 구하기
__6.3 파싱하여 데이터 준비하기
__6.4 표제어 추출
__6.5 단어빈도-역문서빈도(TF-IDF) 계산하기
__6.6 특이값 분해
__6.7 중요한 의미 찾기
__6.8 낮은 차원 표현에 대한 의문과 고찰
__6.9 단어와 단어 사이의 연관도
__6.10 문서와 문서 사이의 연관도
__6.11 단어와 문서 사이의 연관도
__6.12 여러 개의 단어로 질의하기
__6.13 한 걸음 더 나아가기

7장. 그래프엑스로 동시발생 네트워크 분석하기
__7.1 네트워크 분석 사례: MEDLINE의 인용 색인
__7.2 데이터 구하기
__7.3 스칼라 XML 라이브러리로 XML 문서 파싱하기
__7.4 MeSH 주요 주제와 주제들의 동시발생 분석하기
__7.5 그래프엑스로 동시발생 네트워크 구성하기
__7.6 네트워크의 구조 이해하기
__7.7 관련성 낮은 관계 필터링하기
__7.8 작은 세상 네트워크
__7.9 한 걸음 더 나아가기

8장. 뉴욕 택시 운행 데이터로 위치 및 시간 데이터 분석하기
__8.1 데이터 얻기
__8.2 스파크에서 시간과 지리 데이터 다루기
__8.3 JodaTime과 NScalaTime을 이용한 시간 데이터
__8.4 Esri Geometry API와 Spray를 사용한 지리 데이터
__8.5 뉴욕 택시 운행 데이터 준비하기
__8.6 스파크에서 세션화하기
__8.7 한 걸음 더 나아가기

9장. 몬테카를로 시뮬레이션으로 금융 리스크 추정하기
__9.1 금융 분야 전문 용어
__9.2 VaR 계산 방법
__9.3 우리의 모델
__9.4 데이터 구하기
__9.5 전처리하기
__9.6 요인 가중치 결정하기
__9.7 표본추출하기
__9.8 다변량 정규분포
__9.9 실험 실행하기
__9.10 수익 분포 시각화하기
__9.11 결과 평가하기
__9.12 한 걸음 더 나아가기

10장. BDG 프로젝트와 유전체학 데이터 분석하기
__10.1 모델링과 저장소를 분리하기
__10.2 ADAM CLI를 이용한 유전체학 데이터 처리
__10.3 ENCODE 데이터로부터 전사인자 결합 부위 예측하기
__10.4 1000 게놈 프로젝트에서 유전자형 질의하기
__10.5 한 걸음 더 나아가기

11장. 파이스파크와 썬더로 신경 영상 데이터 분석하기
__11.1 파이스파크 소개
__11.2 썬더 라이브러리 개요와 설치
__11.3 썬더로 데이터 읽어 들이기
__11.4 썬더를 이용해서 신경 세포 유형 분류하기
__11.5 한 걸음 더 나아가기

부록 A 스파크 더 깊숙히
__A.1 직렬화
__A.2 어큐뮬레이터
__A.3 스파크와 데이터 과학자의 작업흐름
__A.4 파일 형식
__A.5 스파크의 하위 프로젝트들

부록 B MLlib 파이프라인 API
__B.1 단순한 모델링을 넘어서
__B.2 파이프라인 API
__B.3 문서 분류 예제 검토

추천사

마테이 자하리아(스파크 창시자, 작가)

버클리에서 스파크 프로젝트를 시작한 이래로, 나는 단순히 빠른 병렬 시스템을 구축한다는 사실보다는 점점 더 많은 사람이 대규모 컴퓨팅을 사용할 수 있게 돕는다는 점에 흥분해왔다. 데이터 과학 전문가 네 명이 스파크 기반의 고... 더보기

이상훈(한국 스파크 사용자 모임 운영자)

아파치 스파크는 빅데이터 영역에서 가장 핫한 기술로, 범용적이면서 빠른 대용량 분산 처리를 지원한다. 또한 기초 데이터 분석부터 기계 학습 등의 기능까지 지원하게 되면서 개발자만의 오픈 소스에서 분석가를 위한 오픈 소스로 주... 더보기

최홍용(현대오토에버)

교통, 금융 분야 등의 실제 데이터로 데이터 획득, 전처리, 가중치 결정, 실행, 평가 그리고 시각화까지 해볼 수 있는 스파크 활용서다. 스파크 입문을 넘어 실무에 적용하려 할 때 좋은 참고서다. 자신의 관심 도메인에 맞는 ... 더보기

출판사 서평

★ 스파크 실전편! 실무와 가장 가까운 경험을 제공한다.
이 책은 기능과 API를 단조롭게 나열하지 않는다. 현실과 동떨어진, 예제를 위한 예제를 따라 하지도 않는다. 대신 우리 주변에서 찾을 수 있고 우리 삶과 밀접한 실제 데이터를 가져와 함께 분석하고 다듬어본다. 그것도 하나가 아니라 9가지다. 음악 추천부터 이상 감지, 교통, 금융, 영상 데이터 등. 관심 가는 장을 먼저 봐도 좋고, 차례대로 천천히 따라 해봐도 좋다. 그럼 가장 진보한 분석 도구인 스파크로 다 함께 데이터의 바다를 항해해보자!

★ 현실 세계 데이터셋과... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트 적립은 작성 후 다음 날 혹은 해당 도서 배송 출발 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 분야의 베스트

더보기+

이 분야의 신간

  • 길벗알앤디
    18,900원
  • 김진중
    19,800원
  • 이운희(땡글닷컴 쌍둥아빠)
    14,400원
  • 허팝
    13,500원
  • 김태영
    22,500원
더보기+

바로가기

  • 우측 확장형 배너 2

최근 본 상품