본문내용 바로가기
MD의선택 무료배송

빅데이터 분석을 위한 스파크 2 프로그래밍 대용량 데이터 처리부터 머신러닝까지

위키북스 데이터베이스 & 빅데이터 시리즈 15
백성민 지음 | 위키북스 | 2017년 02월 08일 출간
  • 정가 : 35,000원
    판매가 : 31,500 [10%↓ 3,500원 할인]
  • 제휴할인가 : 23,620 교보-롯데카드 최대 25% 청구할인 카드/포인트 안내
  • 통합포인트 : 1,750 적립 [5% 적립]
  • 추가혜택 :
    naver네이버페이 결제 시 최대 2% 추가 적립 payco페이코 결제 시 5,000원 할인 + 1만원 적립 okcashbag 실 결제 금액의 0.5% 적립 안내
  • 배송비 : 무료 배송비 안내
  • 도착예정일 : 서울 종로구 종로1가 교보생명빌딩 기준 지역변경
    당일배송 지금 주문하면 오늘(25일,목) 도착 예정 도착 예정일 안내
  • 바로드림 : 인터넷으로 주문하고 영업점에서 직접 수령 안내
보노보노
닫기
  • 이벤트 도서 포함 25000원 이상 구매시 위 베어 베어스 크로스백 증정
  • 5월 어린이/유아 추천도서전 다같이놀자!
  • 정촉매 시크릿 테스트
  • 보노보노
  • 생활책방 도서포함, 2만원이상 구매시 한정판 블랙윙 펜슬세트 증정
  • 전국민이 추천합니다 대통령님 읽어주세요!
  • 권정생 작가 10주기 기획전
  • 요리 스테디&베스트셀러 이벤트 4종 사은품 증정
  • 5월 추천도서 구매꿀팁 매일 1천명 1천원교환권, 행사도서 포함 2만원이상 구매시 원형파우치 증정
  • 이것이 사피엔스의 미래다 호모 데우스 에코백 증정
상품상세정보
ISBN 9791158390549(1158390548)
쪽수 562쪽
크기 189 * 240 * 34 mm /1344g 판형알림

책소개

이 책이 속한 분야

스파크를 처음 접하는 입문자를 위한 안내서!

2017년 현재, 스파크는 RDD보다도 더 뛰어난 기능으로 무장한 데이터셋을 추가로 도입해서 머신러닝, 그래프 알고리즘, 실시간 스트리밍 처리는 물론이고 하둡, R, 하이브(Hive), 카프카(Kafka), 아파치 제플린(Zeppelin) 등 빅데이터 분야의 기존 스타들과의 연동을 통해 데이터 처리와 관련된 거의 대부분의 영역에서 영향력을 넓혀가고 있다.

이 책은 스파크를 처음 접하는 개발자들이 빠른 시간 내에 스파크가 무엇이고 어디에 어떻게 활용할 수 있는지 실무에 필요한 감을 잡을 수 있도록 스파크 전체 모듈에 대한 설명과 예제를 담고 있다. 특히 스파크를 써 보고 싶지만 새로운 언어를 배우는 부담 때문에 망설이던 개발자들을 위해 스칼라, 자바, 파이썬 예제를 수록하였다.

이 책의 시리즈

시리즈 자세히 보기

저자소개

저자 : 백성민

저자 백성민은 어쩌다 시작한 개발이 천직이 되어 버린 행복한 개발자. 좋아하고 즐기는 일을 직업으로 가질 수 있음에 더없이 감사한 마음으로 살고 있다. 2001년 이후 줄곧 실무 개발자로 일하고 있으며, 지금은 한 포털 회사에서 광고 데이터 분석 업무를 담당하고 있다. 최근에는 프런트엔드 기술에도 관심을 두고 모바일 및 웹 기술도 배워나가려 노력하고 있으며, 새해를 맞아 작년에 사놓기만 하고 미처 읽지 못했던 책들을 다 읽어 보고 싶다는 꿈을 꾸고 있다.
번역서로 『거침없이 배우는 자바파워툴』(지앤선, 2011)이 있다.

목차

▣ 01장: 스파크 소개
1.1 스파크
__1.1.1 빅데이터의 등장
__1.1.2 빅데이터의 정의
__1.1.3 빅데이터 솔루션
__1.1.4 스파크
__1.1.5 RDD(Resilient Distributed Dataset) 소개와 연산
__1.1.6 DAG
__1.1.7 람다 아키텍처
1.2 스파크 설치
__1.2.1 스파크 실행 모드의 이해
__1.2.2 사전 준비
__1.2.3 스파크 설치
__1.2.4 예제 실행
__1.2.5 스파크 셸
__1.2.6 실행 옵션
__1.2.7 더 살펴보기
1.3 개발 환경 구축
__1.3.1 로컬 개발 환경 구축
1.4 예제 프로젝트 설정
__1.4.1 WordCount 예제 실행
1.5 정리

▣ 02장: RDD
2.1 RDD
__2.1.1 들어가기에 앞서
__2.1.2 스파크컨텍스트 생성
__2.1.3 RDD 생성
__2.1.4 RDD 기본 액션
__2.1.5 RDD 트랜스포메이션
__2.1.6 RDD 액션
__2.1.7 RDD 데이터 불러오기와 저장하기
__2.1.8 클러스터 환경에서의 공유 변수
__2.1.9 정리
2.2 정리

▣ 03장: 클러스터 환경
3.1 클러스터 환경
__3.1.1 클러스터 모드와 컴포넌트
__3.1.2 클러스터 모드를 위한 시스템 구성
__3.1.3 드라이버 프로그램과 디플로이 모드
3.2 클러스터 매니저
__3.2.1 스탠드얼론 클러스터 매니저
__3.2.2 Apache Mesos
__3.2.3 얀
__3.2.4 히스토리 서버와 매트릭스

▣ 04장: 스파크 설정
4.1 스파크 프로퍼티
4.2 환경변수
4.3 로깅 설정
4.4 스케줄링
__4.4.1 애플리케이션 간의 자원 스케줄링
__4.4.2 단일 애플리케이션 내부에서의 자원 스케줄링
4.5 정리

▣ 05장: 스파크 SQL
5.1 데이터셋
5.2 연산의 종류와 주요 API
5.3 코드 작성 절차 및 단어 수 세기 예제
5.4 스파크세션
5.5 데이터프레임, 로우, 칼럼
__5.5.1 데이터프레임 생성
__5.5.2 주요 연산 및 사용법
5.6 데이터셋
__5.6.1 데이터셋 생성
__5.6.2 타입 트랜스포메이션 연산
5.7 하이브 연동
5.8 분산 SQL 엔진
5.9 Spark SQL CLI
5.10 정리

▣ 06장: 스파크 스트리밍
6.1 개요 및 주요 용어
__6.1.1 스트리밍컨텍스트
__6.1.2 DStream(Discretized Streams)
6.2 데이터 읽기
__6.2.1 소켓
__6.2.2 파일
__6.2.3 RDD 큐(Queue of RDD)
__6.2.4 카프카(Kafka)
6.3 데이터 다루기(기본 연산)
__6.3.1 print()
__6.3.2 map(func)
__6.3.3 flatMap(func)
__6.3.4 count(), countByValue()
__6.3.5 reduce(func), reduceByKey(func)
__6.3.6 filter(func)
__6.3.7 union()
__6.3.8 join()
6.4 데이터 다루기(고급 연산)
__6.4.1 transform(func)
__6.4.2 updateStateByKey()
__6.4.3 윈도우 연산
__6.4.4 window(windowLength, slideInterval)
__6.4.5 countByWindow(windowLength, slideInterval)
__6.4.6 reduceByWindow(func, windowLength, slideInterval)
__6.4.7 reduceByKeyAndWindow(func, invFunc, windowLength, slideInterval, [numTasks])
__6.4.8 countByValueAndWindow(windowLength, slideInterval, [numTasks])
6.5 데이터의 저장
__6.5.1 saveAsTextFiles(), saveAsObjectFiles(), saveAsHadoopFiles()
__6.5.2 foreachRDD()
6.6 CheckPoint
6.7 캐시
6.8 모니터링
6.9 주요 설정

▣ 07장: 스트럭처 스트리밍
7.1 개요
7.2 프로그래밍 절차
7.3 데이터프레임과 데이터셋 생성
7.4 스트리밍 연산
__7.4.1 기본 연산 및 조인 연산
__7.4.2 윈도우 연산
__7.4.3 워터마킹
__7.4.4 스트리밍 쿼리
7.5 정리

▣ 08장: MLlib
8.1 개요
8.2 관측과 특성
8.3 레이블
8.4 연속형 데이터와 이산형 데이터
8.5 알고리즘과 모델
8.6 파라메트릭 알고리즘
8.7 지도학습과 비지도학습
8.8 훈련 데이터와 테스트 데이터
8.9 MLlib API
8.10 의존성 설정
8.11 벡터와 LabeledPoint
__8.11.1 벡터
__8.11.2 LabeledPoint
8.12 파이프라인
8.13 알고리즘
__8.13.1 Tokenizer
__8.13.2 TF-IDF
__8.13.3 StringIndexer, IndexToString
8.14 회귀와 분류
__8.14.1 회귀
__8.14.2 분류
8.15 클러스터링
8.16 협업 필터링
8.17 정리

▣ 09장: SparkR
9.1 개요
9.2 R 설치 및 실행
9.3 데이터프레임
9.4 데이터프레임 생성
__9.4.1 R데이터프레임으로부터 생성
__9.4.2 파일로부터 생성
9.5 데이터프레임 연산
__9.5.1 조회 및 기본 연산
__9.5.2 그룹 및 집계 연산
__9.5.3 칼럼 연산
__9.5.4 집합 연산
__9.5.5 dapply(), dapplyCollect()
__9.5.6 gapply(), gapplyCollect()
__9.5.7 spark.lapply()
__9.5.8 createOrReplaceTempView()
__9.5.9 write()
9.6 하이브 연동
9.7 머신러닝
9.8 정리

▣ 10장: GraphX
10.1 주요 용어
__10.1.1 유방향 그래프
__10.1.2 유방향 멀티 그래프
__10.1.3 속성 그래프
10.2 데이터 타입
__10.2.1 RDD
__10.2.2 VertextID
__10.2.3 꼭짓점
__10.2.4 선(Edge)
__10.2.5 EdgeTriplet
__10.2.6 VertexRDD
__10.2.7 EdgeRDD
__10.2.8 Graph
10.3 그래프 생성
10.4 그래프 연산
__10.4.1 numEdges, numVertices
__10.4.2 inDegrees, outDegrees, degrees
__10.4.3 vertices, edges, triplets
__10.4.4 mapVertices(), mapEdges(), mapTriplets()
__10.4.5 reverse()
__10.4.6 subgraph()
__10.4.7 mask()
__10.4.8 groupEdges()
__10.4.9 joinVertices(), outerJoinVertices()
__10.4.10 collectNeighborIds(), collectNeighbors()
__10.4.11 aggregateMessages()
__10.4.12 pregel()
10.5 VertextRDD, EdgeRDD 연산
10.6 그래프 알고리즘
10.7 정리

▣ 부록: 스칼라란?
부록.1 스칼라 설치
부록.2 스칼라 셸
부록.3 변수 타입과 변수 선언
부록.4 Range와 형변환
부록.5 클래스, 객체, 컴패니언 오브젝트
부록.6 트레이트와 상속
부록.7 apply
부록.8 튜플과 옵션, 케이스클래스
부록.9 패턴 매치
부록.10 패키지 객체
부록.11 type
부록.12 임포트
부록.13 함수와 메서드
부록.14 제네릭
부록.15 암묵적 변환과 타입 클래스 패턴
부록.16 정리

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트 적립은 작성 후 다음 날 혹은 해당 도서 배송 출발 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 분야의 베스트

더보기+

이 분야의 신간

더보기+

바로가기

  • 우측 확장형 배너 2

최근 본 상품