본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

대용량 머신 러닝과 스파크 빅데이터 기반의 머신 러닝 애플리케이션 구축

레자울 카림 , 마헤디 카이저 지음 | 이지훈 옮김 | 에이콘출판 | 2018년 07월 16일 출간
  • 정가 : 35,000원
    판매가 : 31,500 [10%↓ 3,500원 할인]
  • 통합포인트 :
    [기본적립] 1,750원 적립 [5% 적립] 안내 [추가적립] 5만원 이상 구매 시 2천원 추가적립 [회원혜택] 우수회원 5만원 이상 구매 시 2~3% 추가적립
  • 추가혜택 : 카드/포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(20일,화) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내
장바구니 담기 바로구매

책 그리고 꽃 서비스
책 그리고 꽃 | 책과 꽃을 함께 선물하세요 자세히보기

닫기

바로드림 주문 선물하기 보관함 담기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2020.12.31
상품상세정보
ISBN 9791161751771(1161751777)
쪽수 560쪽
크기 189 * 235 * 31 mm /1030g 판형알림
이 책의 원서/번역서 Large Scale Machine Learning with Spark/Md. Rezaul Karim

책소개

이 책이 속한 분야

아파치 스파크와 스파크 ML 라이브러리를 이용해 대용량 데이터에서 특징을 찾고 머신 러닝 파이프 라인을 구축하며, 이를 새로운 데이터와 문제 유형에 맞게 튜닝하는 방법을 배운다. 그리고 모델을 빌드하고 프로덕션 환경에 배포하는 방법도 살펴본다. 머신 러닝 및 스파크에 관해 최소한의 지식만 있더라도 예제를 따라 해보면서 머신 러닝과 솔루션을 함께 탐색할 수 있다.

저자소개

저자 : 레자울 카림

저자 레자울 카림 (Rezaul Karim)
C, C++, 자바, R, 파이썬을 비롯해 스파크, 카프카, DC/OS, 도커, 메소스(Mesos), 하둡, 맵리듀스(MapReduce)와 같은 빅데이터 기술을 중심으로, 알고리즘과 데이터 구조에 대한 연구 및 개발 분야에서 8년 이상의 경력을 쌓았다.
머신 러닝에 처음 매료된 것은 2010년 고급 인공지능 대학원 과정을 이수하던 중 하둡 기반 맵리듀스와 머신 러닝을 결합한 기술을 대규모 비즈니스 지향 트랜잭션 데이터베이스에 적용해 장바구니 분석을 수행하면서부터다. 결과적으로 연구 관심사를 꼽는다면 머신 러닝, 데이터 마이닝, 시맨틱 웹(Semantic Web), 빅데이터, 바이오인포매틱스다. 데이터 마이닝, 머신 러닝, 바이오인포매틱스 분야를 중심으로, 저명한 국제 저널 및 콘퍼런스에서 30편 이상의 연구 논문을 발표했다.
현재 아일랜드의 Insight Center for Data Analytics(아일랜드 최대 규모의 데이터 분석 센터이자 세계 최대의 시맨틱 웹 연구소)에서 박사 연구원으로 재직 중인 소프트웨어 엔지니어이자 연구원이다. 골웨이(Galway)의 아일랜드 국립 대학교(National University of Ireland)에서 박사 학위를 취득했고, 경희대학교 컴퓨터공학과에서 데이터 마이닝을 전공하며 ME(공학 석사) 학위를 취득했다. 방글라데시 다카 대학교(University of Dhaka)에서는 컴퓨터공학 학사 학위를 받았다.

저자 : 마헤디 카이저

저자 마헤디 카이저 (Mahedi Kaysar)
아일랜드 더블린 시티 대학교(Dublin City University, Ireland)의 Insight Center for Data Analytics의 소프트웨어 엔지니어이자 연구원이다. Insight Center for Data Analytics에 합류하기 전에 골웨이의 아일랜드 국립 대학교와 방글라데시에 위치한 삼성전자에서 소프트웨어 엔지니어로 근무했다.
C, 자바, 스칼라, 파이썬 중심의 알고리즘과 데이터 구조에 대한 탄탄한 경험을 바탕으로 R&D에서 5년 이상 활동했다. 또한 전사적 애플리케이션(enterprise application) 개발과 빅데이터 분석 분야에서 많은 경험을 쌓았다.
방글라데시 치타공 공과 대학(Chittagong University of Engineering and Technology)에서 컴퓨터 과학 및 공학 학사 학위를 취득했다. 현재는 아일랜드 더블린 시티 대학교에서 분산 및 병렬 컴퓨팅(Distributed and Parallel computing)에 대한 대학원 연구를 시작했다.

역자 : 이지훈

역자 이지훈
아이폰/안드로이드 앱 및 서비스로 다양한 수익 모델 창출에 노력하지만 뜻대로 되지 않아 열심히 번역 및 저술하는 40대 개발자며 한국에서 60대까지 개발자로 일하는 것이 목표다.
『나홀로 개발자를 위한 안드로이드 프로그래밍의 모든 것』(에이콘, 2013), 『Java 프로그래밍 입문』(북스홀릭퍼블리싱, 2013)을 저술했고, 『프로그래머를 위한 안드로이드』(정보문화사, 2015), 『Android Internals Vol.1』(에이콘, 2016), 『스위프트로 하는 iOS 9 프로그래밍』(에이콘, 2016) 등 10여 권의 책을 번역했다.

작가의 말

머신 러닝의 핵심은 원시 데이터를 정보로, 나아가 실행 가능한 지능으로 변환하는 알고리즘과 관련 있다. 머신 러닝은 빅데이터의 예측 분석에 적합하다. 따라서 머신 러닝이 없었다면 이 거대한 정보의 흐름을 따라잡기란 거의 불가능했을 것이다. 비교적 새로운 최근 기술인 스파크(Spark)는 빅데이터 엔지니어와 데이터 과학자들에게 좀 더 빠르고 사용하기 쉬운 강력한 기능과 통합 엔진을 제공한다.
이로 인해 다양한 분야의 학습자들이 각자의 머신 러닝 문제를 상호작용하면서 훨씬 더 큰 규모로 해결할 수 있게 됐다. 이 책은 데이터 과학자, 엔지니어, 연구원이 강력한 머신 러닝 모델을 빌드하기 위해 데이터 집약적 환경에서 거대한 데이터 클러스터들을 처리하는 방법을 배워 머신 러닝을 개발하고 대규모로 배포할 수 있도록 설계됐다.
이 책은 상향식 접근 방식으로 구성돼 스파크와 ML의 기초부터 시작한다. 그리고 피처 엔지니어링으로 데이터를 탐색하고, 확장 가능한 ML 파이프라인을 구축한 후, 이들을 새로운 데이터와 문제 유형에 맞게 튜닝하고 조정한다. 마지막으로 모델 빌드에서 배포로 이어진다. 좀 더 명확하게 설명하기 위해 머신 러닝과 스파크로 하는 프로그래밍에 관해 최소한의 지식만 갖춘 독자라도 예제를 따라가며 실제 머신 러닝 문제와 솔루션을 향해 나아갈 수 있도록 구성했다.

목차

1장. 스파크를 이용한 데이터 분석의 개요
__스파크 개요
____스파크의 기본 사항
____스파크의 장점
__스파크를 사용한 새로운 컴퓨팅 패러다임
____전통적인 분산 컴퓨팅
____코드에서 데이터로의 이동
____RDD: 새로운 컴퓨팅 패러다임
__스파크 에코시스템
____스파크 코어 엔진
____스파크 SQL
____데이터프레임과 데이터셋 통합
____스파크 스트리밍
____그래프 계산: GraphX
____머신 러닝과 스파크 ML 파이프라인
____통계 계산: 스파크R
__스파크 머신 러닝 라이브러리
____스파크를 이용한 머신 러닝
____스파크 MLlib
____스파크 ML
__스파크 설치와 시작하기
__종속성을 사용해 애플리케이션 패키징
__샘플 머신 러닝 애플리케이션 실행
____스파크 셸에서 스파크 애플리케이션 실행
____로컬 클러스터에서 스파크 애플리케이션 실행
____EC2 클러스터에서 스파크 애플리케이션 실행
__참고 문헌
__요약

2장. 머신 러닝 모범 사례
__머신 러닝이란?
____현대 문헌에서의 머신 러닝
____일반적인 머신 러닝 워크플로우
__머신 러닝 작업
____지도 학습
____비지도 학습
____강화 학습
____추천 시스템
____준지도 학습
__실제 머신 러닝 문제
____머신 러닝 클래스
____규칙 추출과 회귀
__가장 널리 사용하는 머신 러닝 문제
__스파크 대규모 머신 러닝 API
____스파크 머신 러닝 라이브러리
__실용적인 머신 러닝 우수 사례
____ML 애플리케이션 개발 전의 우수 사례
____ML 애플리케이션 개발 후 모범 사례
__애플리케이션에 알맞은 알고리즘 선택
____알고리즘을 선택할 때 고려 사항
____알고리즘을 선택할 때 데이터를 함께 고려하기
____널리 사용하는 ML 알고리즘에 대한 참고 사항
__요약

3장. 데이터 이해를 통한 문제 이해
__데이터 분석 및 준비
____데이터 준비 프로세스
__탄력적 분산 데이터셋의 기본사항
____데이터셋 읽기
____RDD로 사전 처리
____키와 값의 쌍으로 작업하기
____변환에 대한 추가 정보
__데이터셋 기본 사항
____데이터셋을 생성하기 위해 데이터셋 읽기
____데이터셋으로 사전 처리
____데이터셋 조작에 대한 추가 정보
____자바빈에서 데이터셋 생성
__문자열과 타입 클래스에서 데이터셋 생성
____RDD, DataFrame, Dataset 간의 비교
__스파크와 데이터 과학자 워크플로우
__스파크에 대해 좀 더 깊게 살펴보기
____공유 변수
__요약

4장. 피처 엔지니어링을 통한 지식 추출
__피처 엔지니어링의 최첨단 기술
____피처 추출 vs. 피처 선택
____피처 엔지니어링의 중요성
____피처 엔지니어링과 데이터 탐색
____피처 추출: 데이터에서 피처 생성
____피처 선택: 데이터에서 필터링 피처
__피처 엔지니어링의 모범 사례
____데이터 이해
____혁신적인 피처 추출 방법
__스파크로 피처 엔지니어링
____머신 러닝 파이프라인: 개요
____파이프라인: 스파크 ML 예제
____피처 변환, 추출, 선택
__고급 피처 엔지니어링
____피처 구성
____피처 학습
____피처 엔지니어링의 반복 프로세스
____딥러닝
__요약

5장. 예제로 보는 지도 및 비지도 학습
__머신 러닝 클래스
____지도 학습
__스파크를 이용한 지도 학습: 사례
____스파크를 이용한 항공기 지연 분석
__비지도 학습
____비지도 학습 사례
__추천 시스템
____스파크에서 협업 필터링
__고급 학습과 일반화
____지도 학습의 일반화
__요약

6장. 확장 가능한 머신 러닝 파이프라인 빌드
__스파크 머신 러닝 파이프라인 API
____데이터셋 추상화
____파이프라인
__스파크를 사용한 암 진단 파이프라인
____스파크를 사용한 유방암 진단 파이프라인
__스파크를 사용한 암 예후 파이프라인
____데이터셋 탐색
____스파크 ML/MLlib를 사용한 유방암 예후 파이프라인
__스파크 코어를 이용한 장바구니 분석
____배경
____동기
____데이터셋 탐색
____문제 설명
____스파크를 이용한 대규모 장바구니 분석
____스파크 코어를 사용한 알고리즘 솔루션
____SAMBA에서 올바른 매개변수의 튜닝과 설정
__스파크를 이용한 OCR 파이프라인
____데이터 탐색과 준비
____스파크 ML과 스파크 MLlib를 사용한 OCR 파이프라인
__스파크 MLlib와 ML을 사용한 토픽 모델링
____스파크 MLlib를 사용한 토픽 모델링
____확장성
__스파크를 사용한 신용 위험 분석 파이프라인
____신용 위험 분석이란? 왜 중요한가?
____스파크 ML을 이용한 신용 위험 분석 개발
____스파크 ML을 사용한 신용 위험 파이프라인
__ML 파이프라인 확장
____크기의 중요성
____크기 vs. 왜곡 고려 사항
____비용과 인프라
__조언 및 성능 고려 사항
__요약

7장. 머신 러닝 모델 튜닝
__머신 러닝 모델 튜닝에 대한 세부 사항
__모델 튜닝의 일반적인 문제
__머신 러닝 모델 평가
____회귀 모델 평가
____이진 분류 모델 평가
____멀티클래스 분류 모델 평가
____클러스터링 모델 평가
__유효성 검사 기술과 평가 기술
__머신 러닝 모델을 위한 매개변수 튜닝
____초매개변수 튜닝
____그리드 검색 매개변수 튜닝
____랜덤 검색 매개변수 튜닝
____교차 유효성 검사
__가설 테스트
____스파크 MLlib의 ChiSqTestResult를 사용한 가설 테스트
____스파크 MLlib Kolmogorov-Smirnov 테스트를 사용한 가설 테스트
____스파크 MLlib의 스트리밍 유의도 검정
__머신 러닝 모델 선택
____교차 검증 기술을 통한 모델 선택
____트레이닝 유효성 검사 분할을 통한 모델 선택
__요약

8장. 머신 러닝 모델 조정
__머신 러닝 모델 적용
____기술 개요
__ML 모델의 일반화
____일반화된 선형 회귀
____스파크를 사용한 일반화된 선형 회귀
__증분 알고리즘을 통한 적용
____증분 서포트 벡터 머신
____증분 신경망
____증분 베이지안 네트워크
__ML 모델 재사용을 통한 적용
____문제 설명과 목적
____데이터 탐색
____심장 질환 예측 모델 개발
__동적 환경에서 머신 러닝
____온라인 학습
____통계 학습 모델
____적대 모델
__요약

9장. 스트리밍 및 그래픽 데이터를 사용한 고급 머신 러닝
__실시간 ML 파이프라인 개발
____비구조화된 텍스트 데이터로서 스트리밍 데이터 수집
__시계열과 소셜 네트워크 분석
____시계열 분석
____소셜 네트워크 분석
__스파크를 사용한 영화 추천
____스파크 MLlib를 사용한 모델 기반 영화 추천
__스트리밍에서 실시간 ML 파이프라인 개발
____트위터에서 실시간 트윗 데이터 수집
____8단계: 스트리밍 스위치 제어
__스파크를 사용한 토픽 모델링
__그래프 데이터와 준지도 그래프 기반 학습에 대한 ML 파이프라인
____GraphX 소개
__요약

10장. 외부 라이브러리를 이용한 설정 및 작업
__스파크가 포함된 서드파티 ML 라이브러리
__스파크 코어로 외부 라이브러리 사용
__클라우데라 Spark-TS를 사용한 시계열 분석
____시계열 데이터
____Spark-TS 설정
____TimeSeriesRDD
__RStudio로 스파크R 설정
__윈도우에서 하둡 런타임 설정
__요약

책 속으로

1장. '스파크를 이용한 데이터 분석의 개요'에서는 스파크의 개요와 컴퓨팅 패러다임, 설치를 다루므로 스파크를 시작하는 데 도움을 준다. 스파크의 주요 컴포넌트를 간략히 설명하고, RDD(Resilient Distributed Dataset)와 데이터셋(Dataset)으로 인한 새로운 컴퓨팅의 발전에 초점을 맞춘다. 그러고 나서 스파크의 머신 러닝 라이브러리 생태계에 주목해본다. 아마존 EC2(Amazon EC2)를 확장하기 전에, 스파크와 메이븐(Maven)을 사용해 간단한 머신 러닝 애플리케이션을 설치하고 구성하고 패키지하는 방... 더보기

출판사 서평

★ 이 책에서 다루는 내용 ★
■ 알고리즘의 명확한 이론적 이해
■ 스칼라, 자바, 파이썬, R을 사용한 애플리케이션 개발을 위해 클러스터 및 클라우드 인프라에서 스파크 설정하기
■ 대규모 클러스터 또는 클라우드 인프라에서 ML 애플리케이션 스케일 업
■ 스파크 ML과 MLlib를 사용해 추천 시스템, 분류, 회귀, 클러스터링, 정서 분석, 차원 감소를 위한 ML 파이프라인 개발하기
■ 피처 엔지니어링 중심으로 ML 애플리케이션을 개발하기 위한 대규모 텍스트 처리
■ 스파크 스트리밍(Spark Streaming)을 사용해... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서번역서

안내

이 분야의 베스트

더보기+

이 분야의 신간

  • 프랑소와 숄레
    29,700원
  • 길벗알앤디(강윤석, 김용갑,...
    31,500원
  • 길벗알앤디
    15,300원
  • 이안 굿펠로
    37,800원
  • 조슈아 블로크
    32,400원
더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품