본문내용 바로가기
MD의선택 무료배송 이벤트 사은품 소득공제

초보자를 위한 아파치 스파크. 2 스칼라와 파이썬을 활용한 대규모 분산 데이터 처리 애플리케이션 개발

acorn+PACKT 시리즈
라자나라야난 토투바이카투마나 지음 | 방호남 옮김 | 에이콘출판 | 2018년 01월 31일 출간
  • 정가 : 30,000원
    판매가 : 27,000 [10%↓ 3,000원 할인]
  • 통합포인트 :
    [기본적립] 1,500원 적립 [5% 적립] 안내 [추가적립] 5만원 이상 구매 시 2천원 추가적립 [회원혜택] 우수회원 3만원 이상 구매 시 2~4% 추가적립
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    지금 주문하면 내일( 7일,토) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 행사도서 포함 IT 분야 3만원 이상 구매시 개발자 텀블러티슈 ..
    2019.11.05 ~ 2019.12.31
  • 에이콘의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2020.12.31
  • #리드잇 페이스북 페이지 팔로우 하시고, 신간소식 빠르게 받아보..
    2017.06.22 ~ 2025.07.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2020.12.31
상품상세정보
ISBN 9791161751054(116175105X)
쪽수 384쪽
크기 189 * 236 * 21 mm /715g 판형알림
이 책의 원서/번역서 Apache Spark 2 for Beginners: Develop large-scale distributed data processing applications using Spa/Rajanarayanan Thottuvaikkatumana

책소개

이 책이 속한 분야

이 책의 주제어

스파크 2.0을 처음 접하는 초보자부터 고급 개발자까지 활용할 수 있는 예제 중심의 스파크 2.0 종합 입문서다. 빅데이터와 머신 러닝 시대를 맞아 안정적이고 빠른 데이터 처리 능력을 가진 분산 데이터 처리 플랫폼의 중요성이 부각되는 가운데 처리 속도, 안정성, 호환성을 모두 만족하는 오픈 소스 기반 프레임워크가 바로 스파크다. 새로 나온 스파크 2.0은 기존 스파크보다 더욱 빠른 데이터 처리 속도와 다양한 머신 러닝 라이브러리 지원을 바탕으로 전 세계에서 활용되고 있다. 특히 이 책은 스파크를 처음 접하는 초보자들이 내용을 쉽게 이해할 수 있도록 다양한 예제 중심으로 이뤄져 있다. 단순한 데이터 처리부터 복잡한 데이터 스트림, 메시지큐, 그래프 모델 등 다양한 난이도의 예제를 통해 스파크 2.0이 가진 장점을 모두 살펴볼 수 있을 것이다.

이 책의 총서

총서 자세히 보기

저자소개

저자 : 라자나라야난 토투바이카투마나

라자나라야난 토투바이카투마나(Rajanarayanan Thottuvaikkatumana)
줄여서 Raj는 다양한 나라의 회사에서 약 23년간 소프트웨어 개발 기술자로 일했다. 인도 및 싱가포르, 미국 등에서 일을 해왔고 현재는 영국에서 지내고 있다. 아키텍처 및 디자인, 소프트웨어 애플리케이션 개발 경력이 있으며, 유명한 데이터베이스 및 애플리케이션 개발 플랫폼, 웹 기술, 빅데이터 기술을 이용하는 일을 해왔다. 2000년 이후로는 주로 자바 관련기술을 써왔고 자바와 스칼라를 이용한 서버 프로그래밍을 해왔다. 많은 양의 트랜잭션 처리 및 분산, 동시성 처리 문제를 다뤄왔으며, 현재는 차세대 하둡 YARN을 기반으로 한 데이터 처리 플랫폼과 스칼라 기반의 아파치 스파크를 이용한 애플리케이션 스위트(suite)를 개발하고 있다. 그는 수학과 컴퓨터 정보 처리 시스템 분야에서 모두 석사 학위를 보유하고 있고 수많은 ITIL 수료증을 받았다. 클라우드 컴퓨터 관련 수업도 이수했다. 『Cassandra Design Patterns - Second Edition』(Packt, 2015)의 저자이기도 하다. 한가할 때는 클래식 음악을 듣고 테니스를 즐긴다.

역자 : 방호남

공대 남자 엔지니어 5명이서 함께한 결혼 관련 스타트업 창업을 시작으로, 한국 과학 기술 연구원, 실리콘밸리 스타트업을 거쳐 현재 시애틀에 있는 아마존 웹 서비스(AWS) 본사 EC2 서버 엔지니어로 일하고 있다.
서버부터 웹 프론트엔드, 안드로이드, 웹앱 등 다양한 분야에서 경력을 쌓아 왔고 요즘은 대규모 분산 처리 시스템 디자인과 운용을 주로 한다. 컴퓨터 한 대로 세상을 바꾸는 일이 가능한 시대에 개발자로 일할 수 있음에 늘 감사한다. 소프트웨어 자체보다 소프트웨어가 세상에 제공할 수 있는 가치를 탐구하는 것에 더 흥미를 느끼고 있다.

작가의 말

스파크라 불리는 데이터 처리 프레임워크는, 하둡 맵리듀스 작업 성능이 낮은 부분에서도 반복적으로 데이터셋을 재사용함으로써 주목할만한 가치를 제공할 수 있음을 증명하기 위해 처음 개발됐다. 연구 논문 《Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center》는 스파크의 디자인 철학에 관해 이야기한다. 캘리포니아에 있는 버클리 대학 (University of California Berkeley) 연구진이 메소스를 테스트하기 위해 만든 매우 단순한 구현체는 후에 가장 활발한 아파치 프로젝트 중 하나가 됐다. 스파크는 처음부터 하둡 및 메소스, 독립형 모드와 같은 클러스터로 분산 데이터 처리를 수행하도록 디자인됐다. 스파크는 JVM 기반 데이터 처리 프레임워크이므로 JVM 기반 애플리케이션을 지원하는 대부분의 운영 체제에서 작동한다. 스파크는 UNIX 및 Mac OS X에 설치 가능하며 윈도우즈 환경에서도 사용률이 증가하고 있다.
스파크는 프로그래밍 언어 스칼라 및 자바, 파이썬, R을 포함하는 통일된 유니폼(uniform) 프로그래밍 모델을 제공한다. 즉, 스파크 애플리케이션을 개발할 때 거의 모든 언어에서 같은 스파크 API를 제공하므로 언어 선택을 손쉽게 할 수 있다. 이러한 방식으로 조직은 스파크를 새로 사용하더라도 이미 사용하고 있는 프로그래밍 언어로 스파크 프로그램을 개발할 수 있고, 필요에 따라 스파크 애플리케이션을 한 언어에서 다른 언어로 신속하게 포팅 (porting)할 수도 있다. 스파크의 대부분은 스칼라로 개발됐다. 스파크 프로그래밍 모델은 본질적으로 함수 프로그래밍을 지원한다. 가장 기본적인 스파크 데이터 추상화는 다른 모든 라이브러리가 기반으로 만들어진 탄력 분산 데이터 세트 RDD다. RDD 기반 스파크 프로그래밍 모델은 개발자가 데이터 처리 애플리케이션을 개발할 수 있는 가장 낮은 레벨 단계다.
스파크는 더 많은 데이터 처리 유스 케이스(use case)를 처리하기 위해 빠르게 성장했다. 제품 로드맵과 관련해서 앞을 내다보는 변화가 많아지면 비즈니스 사용자를 위해 더 높은 수준의 프로그래밍을 제공해야 하므로 요구 수준이 높아진다. 데이터프레임 추상화 기능을 갖춘 스파크 SQL 라이브러리는 스파크 코어에서 동작하고 널리 사용되는 SQL에 익숙한 대부분 개발자의 요구를 만족시킬 수 있도록 개발됐다.
데이터 과학자들은 계산 작업에 R을 사용한다. R의 가장 큰 한계는 처리해야 할 데이터의 크기가 R 프로그램을 실행 중인 컴퓨터의 메인 메모리 크기보다 작아야 한다는 것이다. 스파크 R API는 데이터프레임 추상화를 바탕으로 데이터 과학자에게 분산 데이터 처리의 신세계를 소개했다. 즉, 스파크 R API를 사용하면 하둡 또는 메소스에서 데이터를 병렬로 처리할 수 있으며 호스트 컴퓨터의 메모리 한계를 훨씬 뛰어 넘어서 데이터 처리 범위를 확장할 수 있다.
데이터를 수집하는 대규모 애플리케이션이 넘쳐나는 시대에서 데이터 소화 속도는 이전과 달리 매우 빨라졌다. 많은 애플리케이션 유스 케이스는 실시간 스트리밍 데이터 처리를 요구한다. 스파크 코어로 구축한 스파크 스트리밍 라이브러리는 이러한 유스 케이스 요구에 따라 실시간으로 스트리밍 데이터를 처리한다.
사용하지 않는 데이터 또는 스트리밍 중인 데이터는 머신 러닝 알고리즘에 입력해 데이터 모델을 학습시키고 이를 활용해 비즈니스 질문에 대한 대답을 제공한다. 스파크 이전에 개발한 모든 머신 러닝 프레임워크는 데이터를 처리하는 컴퓨터의 메모리 부족 및 병렬 처리 수행 불가, 읽기-쓰기의 불필요한 반복 등 많은 한계가 있었다. 스파크는 이러한 한계가 없기 때문에 스파크 코어와 데이터프레임을 바탕으로 구축된 스파크 MLlib 머신 러닝 라이브러리는 머신 러닝 액티비티와 데이터 처리 파이프라인을 함께 처리하는 최고의 머신 러닝 라이브러리로 널리 알려지게 되었다.
그래프는 특별한 유스 케이스에서 많이 사용하는 매우 유용한 데이터 구조다. 그래프 데이터 구조에서 데이터를 처리하는 데 사용하는 알고리즘은 계산 집약적이다. 스파크 이전에도 많은 그래프 처리 프레임워크가 존재했다. 대부분 처리 속도는 빠르지만 그래프 데이터 구조를 생성하기 위한 데이터를 사전 처리하는 것이 큰 병목 현상임이 드러났다. 스파크로 구축한 스파크 GraphX 라이브러리는 데이터 처리 및 그래프 처리를 하나의 연결된 액티비티로 묶어 처리하기 위해 그 격차를 크게 줄였다.
과거에 많은 데이터 처리 프레임워크가 존재했으며 그 중 대다수가 제품을 사용하는 고객들을 벤더 종속(lock-in) 의 함정에 빠뜨리려고 했다. 이에 반해 스파크는 라이센스 비용 없이 다양한 데이터 처리 요구를 해결하기 위한 매우 실용적인 대안을 제공하는 동시에 앞서가는 기업 다수의 지원을 받아 전문적인 제품 지원을 제공한다.

목차

1장. 스파크 기초

__아파치 하둡 소개
__스파크 분석
__스파크 설치
____파이선 설치
____R 설치
____스파크 설치
____개발 도구 설치
____추가 소프트웨어 설치
________IPython
________RStudio
________아파치 제플린
__참고문헌
__요약


2장. 스파크 프로그래밍 모델

__스파크 함수 프로그래밍
__스파크 함수 프로그래밍
____스파크 RDD 불변성
____스파크 RDD 분산 용이성
____스파크 RDD 메모리 상주
____스파크 RDD의 강력한 데이터 타입 지원
__스파크 RDD를 이용한 데이터 변환과 액션
__스파크 모니터링
__스파크 프로그래밍 기초
____맵리듀스
____조인
____추가 액션
__파일에서 RDD 생성
____스파크 라이브러리 스택
__참고문헌
__요약


3장. 스파크 SQL

__데이터 구조
__왜 스파크 SQL인가?
__스파크 SQL 해부
__데이터프레임 프로그래밍
____SQL 프로그래밍
____데이터프레임 API 프로그래밍
__스파크 SQL 집계
__스파크 SQL을 사용한 다중 데이터 소스 연결
__데이터셋
__데이터 카탈로그
__참고문헌
__요약


4장. 스파크 R 프로그래밍

__SparkR의 필요성
__R 언어의 기초
__R 데이터프레임과 스파크
__R을 이용한 스파크 데이터프레임 프로그래밍
____SQL 프로그래밍
____R 데이터프레임 API를 이용한 프로그래밍
__스파크 R을 이용한 집계
__SparkR을 이용한 다중 데이터 소스 조인
__참고문헌
__요약


5장. 파이선과 함께하는 스파크 데이터 분석

__차트 및 그래프 작성 라이브러리
__데이터셋 설정
__데이터 분석 유스 케이스
__차트와 그래프
____히스토그램
____밀도 그래프
____막대 차트
________누적 막대형 차트
____파이 차트
________도넛 차트
____상자 그래프
____수직 막대 그래프
____산점도
________강화된 산점도
____라인 그래프
__참고문헌
__요약


6장. 스파크 스트림 처리

__데이터 스트림 처리
__마이크로 배치 데이터 처리
____DStream 프로그래밍
__로그 이벤트 처리기
____넷캣 서버 시작
____파일 정리
____스파크 클러스터 작업 제출
____애플리케이션 모니터링
____스칼라 애플리케이션 구현
____애플리케이션 컴파일 및 실행
____출력 결과물 처리
____파이선 애플리케이션 실행
__구간 데이터 처리
____스칼라 애플리케이션 로그 이벤트 메시지 빈도수 세기
____파이선 애플리케이션 로그이벤트 메시지 빈도수 세기
__추가 처리 옵션
__카프카 스트림 처리
____주키퍼와 카프카 시작하기
____스칼라 애플리케이션 구현
____파이선 애플리케이션 구현
__실제 스파크 스트리밍 작업
____스파크 데이터 처리 애플리케이션 실패-내구성 구현
____구조 데이터 스트리밍
__참고문헌
__요약


7장. 스파크 머신 러닝

__머신 러닝
__스파크가 머신 러닝에 적합한 이유
__와인 품질 예측
__모델 저장
__와인 분류
__스팸 필터링
__특징 알고리즘
__동의어 찾기
__참고문헌
__요약


8장. 스파크 그래프 처리

__그래프와 사용 사례 이해
__스파크 GraphX 라이브러리
____GraphX overview
____그래프 분할
____그래프 처리
____그래프 구조 처리
__테니스 토너먼트 분석
__페이지랭크 알고리즘 적용
__연결된 구성 요소 알고리즘
__그래프프레임
__그래프프레임 쿼리
__참고문헌
__요약


9장. 스파크 애플리케이션 디자인

__람다 아키텍처
__람다 아키텍처 마이크로블로깅
____SfbMicroBlog 오버뷰
____데이터 이해
____데이터 사전 설정
__람다 아키텍처 구현
____배치 레이어
____서빙 레이어
____스피드 레이어
________쿼리
__스파크 애플리케이션 작업
__코딩 스타일
__소스 코드 셋업
__데이터 소화
__뷰와 쿼리 생성
__커스텀 데이터 처리 이해
__참고문헌
__요약

출판사 서평

★ 이 책에서 다루는 내용 ★

■ 스칼라와 파이썬을 이용한 스파크 프로그래밍 모델과 스파크 2의 기초
■ 스파크 SQL 사용법과 스칼라와 파이썬을 이용한 데이터프레임 활용
■ R을 이용한 스파크 프로그래밍 기초
■ 파이썬을 활용한 그래프 및 차트 그리기, 스파크 데이터 처리
■ 스칼라와 파이썬을 이용한 스파크 스트림 처리
■ 스파크 MLib을 활용한 머신 러닝
■ 스파크 GraphX를 이용한 그래프 처리 기초
■ 배운 것들을 종합해 하나의 완벽한 스파크 애플리케이션 실전 예제 개발


★ 이 책의 대상 독자 ★

스파크의 데이터 ... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서번역서

안내

이 분야의 베스트

더보기+

이 분야의 신간

  • 길벗알앤디
    27,900원
  • 다카라지마사
    9,900원
  • 테런스 J. 세즈노스키
    22,500원
  • 길벗R&D
    32,400원
  • 길벗R&D
    19,800원
더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품