본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

빅데이터 분석을 위한 스칼라와 스파크 대용량 빅데이터 분석과 머신 러닝까지 활용하는

레자울 카림 , 스리다 알라 지음 | 김용환 옮김 | 에이콘출판 | 2019년 01월 02일 출간
  • 정가 : 50,000원
    판매가 : 45,000 [10%↓ 5,000원 할인]
  • 통합포인트 :
    [기본적립] 2,500원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2천원 추가적립 안내 [회원혜택] 실버등급 이상, 3만원 이상 구매 시 2~4% 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(28일,금) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 개발자로 입문하기: 일단 이것부터 읽어보자!
    2019.05.31 ~ 2020.12.31
  • 에이콘의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2020.12.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2020.12.31
상품상세정보
ISBN 9791161752402(1161752404)
쪽수 1092쪽
크기 189 * 235 * 54 mm /1908g 판형알림
이 책의 원서/번역서 Scala and Spark for Big Data Analytics: Tame big data with Scala and Apache Spark!/Rezaul Karim, Sridhar Alla

책소개

이 책이 속한 분야

2019년 대한민국학술원 우수학술도서 선정도서

스파크를 이용해 데이터 분석 방법을 배우려는 사람에게 매우 유용한 책이다. 가장 먼저 스칼라를 소개하고, 스칼라 애플리케이션 개발에 필요한 객체지향 개념과 함수형 프로그래밍 개념을 설명한다. 스파크에 초점을 맞춰 RDD와 데이터 프레임을 사용한 기본 추상화를 다룬다.
그 다음 스파크 SQL, GraphX, 스파크 구조화 스트리밍을 사용해 구조화된 데이터와 구조화되지 않은 데이터를 분석하고 모니터링, 설정, 디버깅, 테스팅, 배포와 같은 고급 주제를 살펴본다. 또한 SparkR 및 PySpark API를 사용한 스파크 애플리케이션을 개발하는 방법, 아파치 제플린(Zeppelin)을 사용한 대화식 데이터 분석, Alluxio를 함께 사용해 인메모리 데이터를 처리하는 방법을 다룬다.
이 책을 다 살펴본 후, 스파크를 완벽하게 이해하고 풀 스택 데이터 분석을 수행할 수 있을 것이다. 이 책은 최신 2.3.2 버전을 기준으로 작성됐다. 기존의 원서에서 제공하는 코드의 오타와 호환성을 수정한 옮긴이의 github 저장소를 제공한다.

■ 스칼라의 객체지향 개념과 함수형 프로그래밍 개념 이해
■ 스칼라 컬렉션 API 이해
■ 스파크의 핵심 추상화를 알기 위해 RDD와 데이터 프레임으로 작업하기
■ 스파크 SQL과 GraphX를 사용해 구조 데이터와 구조화되지 않은 데이터 분석
■ 스파크 구조화 스트리밍을 사용해 확장 가능하고 내결함성 있는 스트리밍 애플리케이션 개발
■ 스파크 MLlib과 스파크 ML에서 많이 사용되는 알고리즘으로 예측 모델을 구축할 수 있는 분류, 회귀 분석, 차원 감소, 추천 시스템과 같은 머신 러닝 모범 사례
■ 방대한 양의 데이터를 클러스터링하는 클러스터링 모델 구축
■ 스파크 애플리케이션 튜닝, 디버깅, 모니터링 이해
■ 실제 독립형(Standalone), 메소스(Mesos), 얀(YARN), 쿠버네티스(Kubernetes) 모드의 클러스터에 스파크 애플리케이션 배포

스파크를 이용해 데이터 분석 방법을 배우려는 사람에게 매우 유용한 책이다. 스파크나 스칼라에 대한 지식은 없더라도 이전 프로그래밍 경험(특히 다른JVM 언어)이 있다면 스파크나 스칼라에 대한 개념을 이해하는 데 매우 유용하다.
스칼라는 지난 몇 년 동안 특히 데이터 과학과 분석 분야에서 꾸준히 증가하고 있다. 스파크는 스칼라로 작성됐고 분석 분야에서 널리 사용되고 있다. 이 책은 빅데이터를 잘 다룰 수 있는 스파크를 설명한다.

저자소개

저자 : 레자울 카림

독일 프라운호퍼(Fraunhofer)의 FIT 연구 과학자다. 독일 아헨(Aachen)의 RWTH 아헨공과대학교에서 박사 학위를 받았다. 컴퓨터 과학 학사, 석사 학위도 취득했다.
프라운호퍼 FIT에 입사하기 전에 아일랜드의 Insight Center (아일랜드 최대 규모의 데이터 분석 센터이자 세계 최대의 시맨틱 웹 연구소)의 연구원으로 일하면서 데이터 분석 업무를 맡았다. 그 전에는 한국, 인도, 베트남, 터키, 방글라데시에 위치한 삼성전자의 R&D 센터에서 리드 엔지니어, 한국의 경희대학교 데이터베이스 연구소에서 연구 조교로 일했다. 또한 방글라데시 다카의 i2SoftTechnology에서 소프트웨어 엔지니어, 비엠테크21 월드와이드(BMTech21Worldwide)에서 R&D 엔지니어로도 근무했다.
빅데이터 기술(스파크, 카프카, DC/OS, 도커, 메소스(Mesos), 제플린(Zeppelin), 하둡, 맵리듀스(MapReduce))과 딥러닝(텐서플로, DeepLearning4j, H2O-Sparking Water) 중심의 C/C++, 자바, 스칼라, R, 파이썬 알고리즘과 데이터 구조에 대한 확실한 지식을 바탕으로 연구 개발 분야에서 8년 이상의 경력을 쌓았다. 연구 관심사는 머신 러닝, 딥러닝, 시맨틱 웹, 링크 데이터, 빅데이터, 바이오 인포믹스 등이다. 팩트출판사에서 출간한 『대용량 머신 러닝과 스파크』(에이콘, 2018)와 『텐서플로로 구현하는 딥러닝과 강화학습』(에이콘, 2017)의 저자다.

저자 : 스리다 알라

중소기업과 대기업이 데이터웨어 하우징, 거버넌스, 보안, 실시간 처리, 초단타 매매, 대규모 데이터 과학 프랙티스 구축 같은 복잡한 문제를 해결할 수 있도록 지원하는 빅데이터 전문가다. 애자일 전문가이자 인증된 애자일 데브옵스 실행가다. 써니밸(Sunnyvale)의 Network Appliance에서 스토리지 소프트웨어 엔지니어로 경력을 쌓은 후, 사이버 보안 회사인 보스턴의 eIQNetworks에서 최고 기술 책임자(CIO)로 근무했다. 미국 필라델피아에 위치한 컴캐스트(Comcast)에서 데이터 과학 및 공학 담당 이사로 재직했다. 스트라타(Strata), 하둡 월드(Hadoop World), 스파크 서밋(Spark Summit), 기타 콘퍼런스에서 열정을 갖고 있는 발표자다. 또한 현장과 온라인에서 여러 기술에 대한 교육을 한다. 대규모 컴퓨팅 및 분산 시스템과 관련된 US PTO에 여러 특허를 출원했다. 인도 하이데라바드 JNTU에서 컴퓨터 과학 학사 학위를 받았으며, 현재 뉴저지에서 아내와 함께 살고 있다.
18년 동안 스칼라, 자바, C/C++, 파이썬, R, Go에서 코드 작성 경험을 쌓았다. 또한 스파크, 하둡, 카산드라(Cassandra), HBase, 몽고DB, 리악(Riak), 레디스(Redis), 제플린, 메소스(Mesos), 도커, 카프카, 일래스틱서치, 솔라, H2O, 머신 러닝, 텍스트 분석, 분산 컴퓨팅, 고성능 컴퓨팅에 대한 폭 넓은 지식을 보유하고 있다.

역자 : 김용환

알티캐스트, 네이버, 라인, SK Planet을 거쳐, 현재 카카오에서 개발자로 일하고 있다. 이제 마흔 네 살의 평범한 개발자로 다양한 도전에서 에너지를 얻으며, 개발과 실무 경험을 블로그(http://knight76.tistory.com)에 기록하고 있다.
정보통신산업진흥원(NIPA) 산하의 소프트웨어공학포털에 개발 관련 내용을 공유했고, 여러 콘퍼런스/세미나에서 그동안 쌓은 개발 지식을 발표하고 있다. 나 자신은 물론, 누군가에게 도움이 될 수 있다는 생각으로 번역을 시작했는데, 어느덧 13번째 책이다.

작가의 말

데이터가 지속적으로 증가하면서 데이터를 기반으로 점점 더 복잡한 결정을 내릴 필요성이 생겼다. 또한 빅데이터는 큰 장애물을 생성하고, 기업은 기존 분석 방법을 사용해 적시에 통찰력을 얻지 못하고 있다. 빅데이터 영역은 분석 프레임워크와 많은 관련이 있고, 분석 프레임워크의 범위는 해당 프레임워크가 처리할 수 있는 것에 따라 정의된다. 수백만 방문자의 클릭 스트림에서 온라인 광고 게재 위치를 최적화하기 위해 면밀히 조사하거나, 사기 신호를 식별하기 위해 수십억 건의 거래를 분석하거나, 머신 러닝과 그래프 처리 같은 고급 분석의 필요가 있든지 간에 엄청난 데이터 용량으로부터 자동으로 통찰력을 얻는 방법이 더 분명해지고 있다.
모든 학계와 산업 분야에서 빅데이터 처리, 분석, 데이터 과학 분야의 사실상 표준인 아파치 스파크는 머신 러닝과 그래프 처리 라이브러리를 제공하고 있고, 기업에서 확장성이 뛰어난 클러스터링 컴퓨터 파워로 복잡한 문제를 쉽게 해결할 수 있다. 스파크는 스칼라를 사용해 분산된 프로그램을 작성하는 것을 스파크를 사용한 일반 프로그램을 작성하는 것처럼 느껴지게 한다. 스파크는 ETL 파이프라인에 성능을 크게 향상시키고 맵리듀스 프로그래머가 매일 하둡 프로그래밍을 하다 직면하는 어려움을 경감시킨다.
이 책에서는 스파크와 스칼라를 사용해 머신 러닝, 그래프 처리, 스트리밍, SQL을 스파크에 전달하는 기능을 사용해 최첨단 고급 데이터 분석을 수행하고 MLlib, ML, SQL, GraphX, 기타 라이브러리를 사용한다.
먼저 스칼라로 시작한 후, 스칼라를 살펴본다. 마지막으로 스파크와 스칼라로 빅데이터 분석하는 고급 주제를 다룬다. 부록에서는 SparkR, PySpark, 아파치 제플린, 인메모리 Alluxio에 대한 스칼라 지식을 확장하는 방법을 설명한다. 이 책은 처음부터 끝까지 읽을 필요가 없다. 얻고 싶은 지식이나 관심이 있는 장으로 건너뛰면 된다.
즐겁게 책을 읽기 바란다!

목차

지은이 소개
기술 감수자 소개
옮긴이 소개
옮긴이의 말
들어가며

1장 스칼라 소개
2장 객체지향 언어, 스칼라
3장 함수형 프로그래밍 개념
4장 컬렉션 API
5장 스파크로 빅데이터 다루기
6장 스파크로 REPL과 RDD 작업
7장 특수 RDD 연산
8장 스파크 SQL
9장 스파크 스트리밍
10장 GraphX
11장 머신 러닝 학습: 스파크 MLlib와 ML
12장 고급 머신 러닝 모범 사례
13장 나이브 베이즈
14장 스파크 MLlib으로 데이터 클러스터링
15장 스파크 ML을 이용한 텍스트 분석
16장 스파크 튜닝
17장 클러스터에 스파크 배포
18장 스파크 테스팅과 디버깅
19장 PySpark와 SparkR

부록 A Alluxio로 스파크의 처리 성능 높이기
부록 B 아파치 제플린에서 대화형 데이터 분석

찾아보기

출판사 서평

1장, ‘스칼라 소개’에서는 스파크의 스칼라 기반 API를 사용해 빅데이터를 분석한다. 시작점으로 스파크 내부가 스칼라로 작성됐음을 설명하고 자연스럽게 스칼라의 역사, 목적, 윈도우/리눅스/맥OS에 스칼라를 설치하는 방법과 같은 기본 내용 등 스칼라에 대해 간단히 설명한다. 그리고 스칼라 웹 프레임워크에 대해 간략히 설명한다. 그다음 자바와 스칼라를 비교 분석한다. 마지막에 스칼라를 시작하기 위해 스칼라 프로그래밍을 살펴본다.
2장, ‘객체지향 언어, 스칼라’에서는 객체지향 프로그래밍(OOP) 패러다임이 완전히 새로운 추상화 계층... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서번역서

안내

이 분야의 베스트

  • 길벗알앤디
    27,900원
  • 길벗R&D
    17,100원
  • 한국데이터진흥원
    16,200원
  • 길벗R&D
    12,600원
  • NCS 정보처리기술사 연구회
    25,200원
더보기+

이 분야의 신간

  • 김정준
    29,700원
  • NCS 정보처리기술사 연구회
    25,200원
  • 조블리(조애리)
    20,700원
  • 남궁일주
    27,000원
  • 윤종식
    25,200원
더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품