본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

R과 하둡을 이용한 빅데이터 분석 빅데이터 처리를 위한 이상적인 솔루션

acorn+PACKT 시리즈
비그니쉬 프라자파티 지음 | 송주영 옮김 | 에이콘출판 | 2016년 02월 19일 출간

이 책의 다른 상품 정보

  • 정가 : 25,000원
    판매가 : 22,500 [10%↓ 2,500원 할인]
  • 통합포인트 :
    [기본적립] 1,250원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2천원 추가적립 안내 [회원혜택] 실버등급 이상, 3만원 이상 구매 시 2~4% 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    07월 06일 출고 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 에이콘의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2020.12.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2020.12.31
상품상세정보
ISBN 9788960778276(8960778273)
쪽수 252쪽
크기 188 * 235 * 16 mm /603g 판형알림
원서명/저자명 Big Data Analytics with R and Hadoop/Vignesh Prajapati

책소개

이 책이 속한 분야

최근 빅데이터 분석 분야가 각광을 받으면서 R에 대한 관심이 높아지고 있다. R은 분석 기능이 뛰어나지만 확장성이 부족하다는 단점이 있다. 이런 측면에서, 대표적인 빅데이터 처리 플랫폼인 하둡과 R을 연동하려는 시도는 아주 자연스러운 일이다. 이 책 [R과 하둡을 이용한 빅데이터 분석]은 데이터 분석가나 플랫폼 엔지니어가 빅데이터 처리를 위해 R의 분석 능력과 하둡의 저장 및 처리 능력을 함께 활용할 수 있도록 이상적인 솔루션을 제시한다.

이 책의 총서

총서 자세히 보기

저자소개

저자 : 비그니쉬 프라자파티

저자 비그니쉬 프라자파티(Vignesh Prajapati)는 인도 출신의 빅데이터 매니아며 엔제이(Enjay)의 소프트웨어 전문가 및 Pingax(www.pingax.com)의 컨설턴트로 활동 중이다. 숙련된 기계학습 데이터 엔지니어로서 기계학습뿐만 아니라 R, 하둡 Hadoop, 머하웃(Mahout), 피그(Pig), 하이브(Hive) 및 하둡 관련 컴포넌트 등의 빅데이터 기술을 통해 데이터셋으로부터 가치 있는 인사이트를 분석하는 일련의 데이터 분석 사이클 전반에 능통하다. 2012년에 구자르트(Gujarat) 기술 대학에서 학사 학위를 받았으며 Tatvic에서 데이터 엔지니어로 일하기 시작했다. 구글 애널리틱스 데이터를 위한 다양한 데이터 분석 알고리즘을 개발해 경제적 가치를 제공했고, 실질적인 기계학습 적용을 위해 구글 애널리틱스와 구글 프리딕션 API를 연동하는 여러 가지 분석 앱을 개발했다. 또한 구글 프로젝트에 오픈소스로 RGoogleAnalytics 패키지를 개발함으로써 R 커퓨니티에 기여했으며, ‘데이터 주도 기술(Data-driven technologies)’에 대한 문서도 작성했다. 단일 도메인에 국한되지 않은 다양한 인터랙티브 앱을 개발하고 있으며, 구글 애널리틱스 API, 실시간 API, 구글 프리딕션 API, 구글 차트 API, 구글 번역 API 등의 다양한 구글 API와 자바, PHP 플랫폼을 이용해 개발하고 있다. 오픈소스 기술을 개발하는 데에도 관심이 많다. 또한 『아파치 Mahout 프로그래밍』(에이콘, 2014)을 리뷰했다. 이 책은 초급자뿐만 아니라 고급 사용자에게도 머하웃에 대한 참신하고 범위 지향적인 접근법을 제공한다. 또한, 사용자가 빅데이터 애플리케이션을 만들면서 기계학습 애플리케이션과 정책, 기계학습 알고리즘의 다양한 가능성을 알 수 있도록 특별하게 구성되어 있다.

역자 : 송주영

역자 송주영은 현재 쿠팡에서 데이터 분석 업무를 담당하고 있다. 지리정보시스템, 이미지 프로세싱, 기계학습 등 다양한 분야에 관심이 많다.

작가의 말

대규모 기업 조직에서 생성되는 데이터의 양은 기하급수적으로 늘어나고 있으며, 이러한 방대한 양의 정보를 하둡 같은 저비용 플랫폼에 저장하는 것이 가능한 시대가 되었다. 최근 이 조직들은 이렇게 모은 데이터로 무엇을 할 것인지, 데이터로부터 어떻게 중요한 통찰을 얻을 것인지에 대한 문제에 직면해 있으며, 그 해결책으로 R이 주목받고 있다. R은 데이터로부터 고급 통계 모델링을 수행하고, 유도된 모델을 화려한 그래프나 시각화로 표현하며, 그 외에 데이터 과학에 연관된 다양한 기능들을 더욱 쉽게 수행하게 도와주는 매우 놀라운 도구다. 그렇지만 R의 중요한 단점 중 하나는 확장성이 부족하다는 점이다. R 코어 엔진은 매우 제한된 양의 데이터만 처리할 수 있으며, 이러한 점을 보완하기 위해 빅데이터를 처리하는 데 많이 사용하는 하둡을 R과 연동하는 것은 자연스러운 일이다. 이 책은 R과 하둡, 그리고 하둡 플랫폼을 사용해서 어떻게 R의 데이터 분석 작업을 확장성 있게 만들 수 있는지에 대한 복잡한 내용들을 다룬다. 또한, 데이터 과학자, 통계학자, 데이터 아키텍트, 엔지니어같이 문제를 해결하기 위해 R과 하둡으로 대량의 데이터를 처리, 분석하려는 다양한 독자들의 요구를 충족시켜줄 것이다. R을 하둡과 연동해 사용함으로써 분석할 데이터셋의 크기에 따라 확장이 가능한 탄력적인 데이터 분석 플랫폼이 제공된다. 이를 통해 경험 많은 프로그래머는 맵리듀스 모듈을 R로 작성할 수 있고, 하둡의 병렬 처리 맵리듀스 메커니즘을 사용하면 데이터셋에서 패턴을 알아내기 위해 해당 모듈을 실행할 수 있다. - 저자 비그니쉬 프라자파티

번역 작업을 마무리하고 이 글을 작성하기 위해 문서 편집기를 열고 있으니, 업무상 프로젝트를 위해 처음으로 R과 하둡의 연동 작업을 수행할 당시의 기억이 새록새록 떠오릅니다. 그 당시에는 이 책은 물론이고 변변한 R 책도 시중에 없었으며, 하둡도 빅데이터 처리 기술로써 사람들의 입에 막 오르내리기 시작하던 시절이었습니다. 그렇게 정보가 열악한 상황 속에서 웹사이트를 찾아가며 프로젝트를 수행하던 때를 돌이켜보니 그 시절에 이 책이 있었더라면 얼마나 좋았을까 하는 생각이 듭니다. 당시에는 분석 기능은 뛰어나지만 확장성에 한계가 있는 R과 빅데이터의 저장 및 처리 능력에 독보적인 위치를 차지하고 있던 하둡을 연동하는 기술이 빅데이터 분석 분야의 은탄환(silver bullet)이 되지 않을까 생각했던 적이 있습니다. 하지만 세상 모든 일이 그렇듯이 모든 문제를 한 번에 해결해주는 솔루션은 존재하기 힘듭니다. 실제 현업에서는 빅데이터에 대한 분석 및 학습을 위해 이 책에서 소개하는 내용뿐만 아니라 머하웃이나 스파크 MLlib(Spark MLlib) 같은 오픈소스 기술이나 벤더에서 제공하는 상용 제품들을 잘 조합해서 용도와 특성에 맞게 활용하는 지혜가 필요합니다. 이 책이 이런 지혜를 발휘하는 데 조금이나마 도움이 되었으면 좋겠습니다. - 역자 송주영

목차

1 R과 하둡 준비
__R 설치
__RStudio 설치
__R 언어 특성의 이해
____R 패키지 사용
____데이터 작업 수행
____커뮤니티 지원의 증가
____R에서 데이터 모델링 수행
__하둡 설치
____여러 가지 하둡 모드의 이해
____하둡 설치 단계
________우분투 리눅스에 하둡 설치(단일 노드 클러스터)
________우분투 리눅스에 하둡 설치(멀티 노드 클러스터)
________우분투에 클라우데라 하둡 설치
__하둡 기능의 이해
__HDFS의 이해
________HDFS의 특성
________맵리듀스
__HDFS와 맵리듀스 아키텍처
____HDFS 아키텍처
________HDFS 컴포넌트
___맵리듀스 아키텍처
_______맵리듀스 컴포넌트
___HDFS와 맵리듀스 아키텍처를 그림으로 이해
__하둡 하위 프로젝트의 이해
__요약

2 하둡 맵리둡스 프로그램 작성
__맵리듀스의 기본 이해
__하둡 맵리듀스 소개
____하둡 맵리듀스 개체 나열
____하둡 맵리듀스 시나리오
________HDFS로 데이터 로딩
________맵 단계 수행
________셔플링과 정렬
________리듀스 단계 수행
____맵리듀스의 제약
____문제 해결을 위해 하둡의 능력
____하둡 프로그래밍에서 사용되는 여러 가지 자바 컨셉
__하둡 맵리듀스의 기초
____맵리듀스 객체의 이해
____맵리듀스에서 맵의 개수 결정
____맵리듀스에서 리듀서의 개수 결정
____맵리듀스의 데이터 흐름
____하둡 맵리듀스에서 사용하는 용어
__하둡 맵리듀스 예제 작성
____맵리듀스 잡 수행 과정
________하둡 맵리듀스 잡을 모니터링하고 디버깅하는 방법
________HDFS 데이터 살펴보기
____비즈니스 문제를 해결하는 여러 가지 맵리듀스 정의
__R에서 하둡 맵리듀스를 작성하는 다양한 방법 소개
____RHadoop 소개
____RHIPE 소개
____하둡 스트리밍 소개
__요약

3 R과 하둡 연동
__RHIPE 소개
____RHIPE 설치
________하둡 설치
________R 설치
________프로토콜 버퍼 설치
________환경변수
________rJava 패키지 설치
________RHIPE 설치
____RHIPE 아키텍처의 이해
____RHIPE 예제 살펴보기
________RHIPE 예제 프로그램(단일 맵 프로그램)
________단어 수 세기
____RHIPE 함수의 레퍼런스
________초기화
________HDFS
________맵리듀스
__RHadoop 소개
____RHadoop 아키텍처의 이해
____RHadoop 설치
____RHadoop 예제 살펴보기
________단어 수 세기
____RHadoop 함수의 레퍼런스
________hdfs 패키지
________rmr 패키지
__요약

4 R로 하둡 스트리밍 사용
__하둡 스트리밍의 기본 이해
__R로 하둡 스트리밍을 수행하는 방법
____맵리듀스 애플리케이션의 이해
____맵리듀스 애플리케이션 작성 방법
____맵리듀스 애플리케이션 실행 방법
________명령 프롬프트에서 하둡 스트리밍 잡 실행
________R 또는 RStudio에서 하둡 스트리밍 잡 실행
____맵리듀스 애플리케이션의 결과를 살펴보는 방법
________명령 프롬프트에서 결과 살펴보기
________R 또는 RStudio 콘솔에서 결과 살펴보기
____하둡 맵리듀스 스크립트에서 사용된 기본 R 함수의 이해
____하둡 맵리듀스 잡 모니터링
__R 패키지 HadoopStreaming 살펴보기
____hsTableReader 함수
____hsKeyValReader 함수
____hsLineReader 함수
____하둡 스트리밍 잡 수행
________하둡 스트리밍 잡 실행
__요약

5 R과 하둡으로 데이터 분석
__데이터 분석 프로젝트의 라이프 사이클 이해
____문제 확인
____데이터 요구사항 디자인
____데이터 전처리
____데이터 분석 수행
____데이터 시각화
__데이터 분석 문제의 이해
____웹 페이지의 카테고리 분석
________문제 확인
________데이터 요구사항 디자인
________데이터 전처리
________데이터 분석 수행
________데이터 시각화
____주식 시장 변화의 빈도 계산
________문제 확인
________데이터 요구사항 디자인
________데이터 전처리
________데이터 분석 수행
________데이터 시각화
____불도저를 위한 시험 답안지의 판매 가격 예측
________문제 확인
________데이터 요구사항 디자인
________데이터 전처리
________데이터 분석 수행
________포아송 근사 재표본화의 이해
________RHadoop을 이용한 랜덤 포레스트 학습
__요약

6 기계학습을 이용한 빅데이터 분석
__기계학습 소개
____기계학습 알고리즘의 유형
__감독 학습 알고리즘
____선형 회귀
________R을 이용한 선형 회귀
________R과 하둡을 이용한 선형 회귀
____로지스틱 회귀
________R을 이용한 로지스틱 회귀
________R과 하둡을 이용한 로지스틱 회귀
__무감독 기계학습 알고리즘
____군집화
________R을 이용한 군집화
________R과 하둡을 이용한 군집화 수행
__추천 알고리즘
____R에서의 추천 생성 과정
____R과 하둡으로 추천 생성
__요약

7 다양한 DB에서 데이터 가져오기와 내보내기
__데이터 파일을 데이터베이스로 사용
____다양한 형태의 파일 이해
____R 패키지 설치
____R로 데이터 가져오기
____R에서 데이터 내보내기
__MySQL 사용
____MySQL 설치
____RMySQL 설치
____테이블과 테이블의 구조 알아보기
____R로 데이터 가져오기
____데이터 조작 살펴보기
__엑셀 사용
____엑셀 설치
____R로 데이터 가져오기
____R과 엑셀로 데이터 가공
____데이터를 엑셀로 내보내기
__MongoDB 사용
____MongoDB 설치
________SQL과 MongoDB 용어 매핑
________SQL과 MongoQL 용어 매핑
____rmongodb 설치
____R로 데이터 가져오기
____데이터 조작 살펴보기
__SQLite 사용
____SQLite의 기능 이해
____SQLite 설치
____RSQLite 설치
____R로 데이터 가져오기
____데이터 조작 살펴보기
__PostgreSQL 사용
____PostgreSQL의 기능 이해
____PostgreSQL 설치
____RPostgreSQL 설치
____R에서 데이터 내보내기
__하이브 사용
____하이브의 기능 이해
____하이브 설치
________하이브 설정 세팅
____RHive 설치
____RHive 작업 살펴보기
__HBase 사용
____HBase의 기능 이해
________HBase 설치
____쓰리프트 설치
____RHBase 설치
____R에서 데이터 가져오기
____데이터 조작 살펴보기
__요약

부록 참고자료
__R + 하둡 도움말 문서
__R 그룹
__하둡 그룹
__R + 하둡 그룹
__인기 있는 R 컨트리뷰터
__인기 있는 하둡 컨트리뷰터

출판사 서평

★ 이 책에서 다루는 내용 ★

■ R과 하둡의 설치

■ 하둡 맵리듀스 애플리케이션 생성

■ RHIPE, RHadoop, 하둡 스트리밍을 이용한 R과 하둡의 연동

■ R과 하둡 기반으로 동작하는 맵리듀스 애플리케이션 개발과 실행

■ RHIPE와 RHadoop을 이용해 R 환경에서 HDFS 데이터 처리

■ R 환경에서 하둡 스트리밍 맵리듀스 실행

■ 다양한 데이터 소스로부터 R에 데이터 가져오기와 내보내기

■ 다양한 분석을 위한 데이터 수집


★ 이 책의 대상 독자 ★

하둡으로 ... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면
결제 90일 이내 300원, 발송 후 5일 이내 400원, 이 상품의 첫 리뷰 500원의 포인트를 드립니다.

포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
북로그 리뷰는 본인인증을 거친 회원만 작성 가능합니다.
(※ 외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외) 안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서

안내

이 분야의 베스트

더보기+

이 분야의 신간

더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품