본문내용 바로가기
MD의선택 무료배송 사은품 소득공제

R로 하는 빅데이터 분석: 데이터 전처리와 시각화

3판
김권현 지음 | 숨은원리 | 2022년 01월 14일 출간
클로버 리뷰쓰기
  • 정가 : 28,000원
    판매가 : 25,200 [10%↓ 2,800원 할인]
  • 혜택 :
    [기본적립] 1400원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2,000원 추가적립 안내 [회원혜택] 회원 등급 별, 3만원 이상 구매 시 2~4% 추가적립 안내 [리뷰적립] 리뷰 작성 시 e교환권 최대 300원 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 개정정보 : 이 도서는 가장 최근에 출간된 개정판입니다. 2020년 01월 출간된 구판이 있습니다. 구판 보기
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    06월 27일 출고 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트

해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
  • 상반기 베스트/추천도서 확인하고 머그&노트 사은품도!
    2022.06.24 ~ 2022.07.31
  • [교보단독 사은품] 개발자 매거진 <리드잇zine> ..
    2022.05.10 ~ 2022.06.30
  • [사은품] 컴퓨터/IT분야 도서 1권만 사도 개발자 추천도서 1..
    2022.03.11 ~ 2022.06.30
상품상세정보
ISBN 9791196014445(1196014442)
쪽수 416쪽
크기 176 * 251 * 28 mm /785g 판형알림

책소개

이 책이 속한 분야

드디어 제3판 발간!

데이터 전처리는 데이터 분석가의 작업 시간의 70-80%에 해당할 만큼 그 비중을 차지합니다!

데이터 전처리는 단순히 컴퓨터 프로그래밍이 아닙니다.
데이터에 대한 이해, 그리고 컴퓨터에 대한 이해, 모두 필요합니다!

이 책은 쿡북(Cookbook)이 아니다!

물론 프로그래밍 언어으로 원하는 목적을 달성하는 가장 빠른 방법은 이미 작동하는 소스 코드를 실행하는 것이다. 하지만 소스 코드를 고쳐야 한다면!?!

그 때부터는 수많은 문법오류, 논리오류(버그)에 잘 돌아가던 프로그램도 안 돌아가는 신비한 경험을 하게 된다. 그 버그란 무엇 때문에 생기는가? 실수, 수면부족, 주의 산만 등 다양한 원인이 있겠지만, 또 다른 주요 원인은 튼튼하지 못한 기초에 있다!

● NA 〉 3은 왜 NA이고, NA | TRUE는 왜 TRUE인가?
● 데이터테이블(data.table)의 복잡한 문법은 어떻게 이해해야 하는가?
● 정규표현식의 메타문자는 무엇이고, 어떻게 다루어야 하는가?
● ggplot2의 수많은 옵션은 어떻게 외워야 할까?

패키지, 벡터, 데이터프레임 등 기초부터 데이터테이블, 정규표현식, ggplot2까지
데이터 전처리와 시각화를 위한 핵심을 모두 담았다!

상세이미지

R로 하는 빅데이터 분석: 데이터 전처리와 시각화(3판) 도서 상세이미지

목차

서문
3판 서문 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
1판 서문 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii

1 들어가기
1.1 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 R의 패키지(Packages)
2.1 패키지 설치 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 패키지 관련 정보 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 패키지 불러오기/확인하기/제거하기 . . . . . . . . . . . . . . . . . . 8
2.4 패키지 관리하기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5 중복되는 함수와 변수 . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 R의 변수, 자료형, 연산/함수
3.1 R의 변수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 R의 데이터 타입(자료형) . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 연산(Operations)과 함수(Functions) . . . . . . . . . . . . . . . . . 19
3.4 특별한 값 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 데이터 구조
4.1 벡터(Vector) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 행렬(matrix), 배열(array), 데이터프레임(data.frame), 리스트(list)
만들기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 행렬, 배열, 데이터프레임, 리스트의 부분선택하기 . . . . . . . . . . . . 46
4.4 행렬, 배열, 데이터프레임, 리스트 수정하기 . . . . . . . . . . . . . . . 50
4.5 CRUD(Create, Read, Update, Delete) . . . . . . . . . . . . . . . 51
4.6 3차 이상의 다차원 배열 . . . . . . . . . . . . . . . . . . . . . . . . . 53

5 dplyr 패키지를 활용한 데이터 가공
5.1 magrittr의 파이프 연산자 . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 dplyr의 방식: 부분 선택(Subsetting) . . . . . . . . . . . . . . . . . 64
5.3 dplyr의 방식 : 수정 . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.4 dplyr의 기타 편의 기능 . . . . . . . . . . . . . . . . . . . . . . . . . 77

6 날짜와 시간
6.1 R의 날짜와 시간 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.2 날짜의 표기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.3 날짜 표기 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.4 날짜시간 표기 인식 . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.5 날짜, 시간 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.6 날짜(시간)의 특정한 정보 참조 . . . . . . . . . . . . . . . . . . . . . 94
6.7 날짜(시간) 갱신 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.8 몇 가지 유의사항 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.9 활용 예 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.10 stringi 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.11 국경일과 공휴일 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.12 음력 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.13 먼 미래, 먼 과거, 그리고 기원 . . . . . . . . . . . . . . . . . . . . . . 103

7 팩터 자료형
7.1 팩터형의 중요성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.2 데이터 전처리에 있어서 팩터형 . . . . . . . . . . . . . . . . . . . . . 109
7.3 forcats 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

8 R로 데이터 읽어오기
8.1 R 내장 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.2 들어가기 : write.table/read.table, save/load . . . . . . . . . . . 117
8.3 텍스트로 저장된 데이터 파일 읽기 . . . . . . . . . . . . . . . . . . . 118
8.4 바이너리 파일 읽기 . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
8.5 압축 파일에서 읽어오기 . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.6 EXCEL 파일 읽기 . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8.7 그 밖의 통계 프로그램 데이터 파일 . . . . . . . . . . . . . . . . . . . 135
8.8 Web에서 데이터 긁어오기(Web scraping) . . . . . . . . . . . . . . . 138
8.9 JSON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.10 이미지에서 텍스트 인식 . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.11 정리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

9 데이터 가공
9.1 집단별로 함수 적용하기 . . . . . . . . . . . . . . . . . . . . . . . . . 150
9.2 여러 데이터 프레임 합치기 . . . . . . . . . . . . . . . . . . . . . . . 158
9.3 세로형/가로형 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

10 패키지 데이터테이블(data.table)
10.1 package:dplyr과 package:data.table의 비교 . . . . . . . . . . . . . 169
10.2 data.table의 키(key) 활용하기 . . . . . . . . . . . . . . . . . . . . 184
10.3 data.table을 활용한 병합 . . . . . . . . . . . . . . . . . . . . . . . 188
10.4 그 밖의 특수기호 : .SD, .GRP, .N, .I, .BY, .EACHI, .. . . . . . . . . . 197
10.5 데이터테이블 종합 . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

11 문자열(character)
11.1 인코딩 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
11.2 대표적인 인코딩 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . 206
11.3 인코딩 방법의 종류 . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
11.4 R에서 인코딩 다루기 . . . . . . . . . . . . . . . . . . . . . . . . . . 208
11.5 문자열 상수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
11.6 유니코드, 엔디언(endianness), BOM . . . . . . . . . . . . . . . . . 213
11.7 유니코드 정규화(Normalization) . . . . . . . . . . . . . . . . . . . 216
11.8 문자열의 정렬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
11.9 문자열을 다루는 함수들 . . . . . . . . . . . . . . . . . . . . . . . . . 218
11.10패키지 stringr을 활용한 문자열 관리 . . . . . . . . . . . . . . . . . 225
11.11주요 인코딩 표 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227

12 정규표현식
12.1 R과 정규표현식 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
12.2 확장정규표현식(ERE; Extended Regular Expressions) . . . . . . . 230
12.3 Perl 호환 정규표현식 . . . . . . . . . . . . . . . . . . . . . . . . . . 240
12.4 패키지 stringr, stringi . . . . . . . . . . . . . . . . . . . . . . . . 243
12.5 stringi 패키지와 정규표현식을 활용한 문자열 데이터 가공 . . . . . . . 244
12.6 활용 예 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

13 흐름 제어와 함수
13.1 제어문: 조건과 반복 . . . . . . . . . . . . . . . . . . . . . . . . . . 249
13.2 함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

14 기술 통계량
14.1 1변수 기술 통계량 . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
14.2 데이터 프레임의 모든 변수(컬럼)에 대해 요약통계치 구하기 . . . . . . 266

15 간편 시각화
15.1 간편 시각화의 예 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
15.2 조건부 이변수 플롯(등구간 구획) . . . . . . . . . . . . . . . . . . . . 274

16 ggplot2
16.1 들어가기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
16.2 시각적 맵핑(Aesthetic mapping) . . . . . . . . . . . . . . . . . . . 277
16.3 기하학적 대상(geom) . . . . . . . . . . . . . . . . . . . . . . . . . . 296
16.4 보조선(Auxillary lines) . . . . . . . . . . . . . . . . . . . . . . . . 305
16.5 좌표계(Coordinate system) . . . . . . . . . . . . . . . . . . . . . . 307
16.6 범례(Legends) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
16.7 제목과 테마(Title and Theme) . . . . . . . . . . . . . . . . . . . . 315
16.8 결과 정리 및 저장 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
16.9 ggplot2(gg = Grammar of Graphics) 총정리 . . . . . . . . . . . . 324

17 연습문제 해답
데이터 구조 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
데이터 불러들이기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
제어와 함수 I. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332

R에서 하는 벡터/행렬 연산
벡터연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
한 행렬 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
두 행렬의 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
선형(행렬) 대수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335

A 수 표기 방법
A.1 국제표준 ISO 80000-1 . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.2 한글 맞춤법 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.3 다른 나라의 수 표기 . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
A.4 R에서 수 읽기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338

B 측정단위
B.1 단위와 관련된 ‘한글 맞춤법’ . . . . . . . . . . . . . . . . . . . . . . 344
B.2 주요 단위 및 접두어 . . . . . . . . . . . . . . . . . . . . . . . . . . . 344

C dplyr을 SQL로 번역하기
C.1 수기 번역 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
C.2 dbplyr 패키지를 사용한 자동 번역 . . . . . . . . . . . . . . . . . . . 351

D 화일과 디렉토리 관련 함수들
D.1 디렉토리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
D.2 스크립트 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
D.3 화일 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356

E R의 색, 세계 타임존

F 치트시트

출판사 서평

이 책은 어느 정도 프로그래밍 경험이 있는 독자를 대상으로, 오픈 소스 데이터 분석 도구인 R을 활용하여 데이터를 불러들이고, 가공하고, 시각화하는 방법을 설명한다. 이 책은 시중의 책들과 달리 특정한 기능을 하는 함수들을 설명하기 전에 데이터 전처리의 목적과 기능에 대한 개념적인 이해를 우선 할 수 있도록 도와준다. 그리고 날짜시간 자료형, 문자열 자료형, 정규표현식 등에 대한 원리와 응용 방법을 자세하게 설명하여 복잡한 전처리 과정에서도 논리적 오류를 범하지 않도록 한다. 분산처리 없이 빅데이터 처리를 할 수 있는 마지막 보류인... 더보기

Klover 리뷰 (0)

북로그 리뷰 (4) 전체보기 쓰러가기

북로그 리뷰는 본인 인증 후 작성 가능합니다.
책이나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 내용은 비공개 처리 될 수 있습니다.
※ 북로그 리뷰 리워드 제공 2021. 4. 1 종료
  • R로 하는 빅데이터 분석 kk**dol8 | 2022-02-04 | 추천: 0 | 5점 만점에 5점
    R은 1993년 뉴질랜드 오클랜드 대학의 통계학과 교수인 로스 이하카 (Ross Ihaka)와 로버트 젠틀멘(Robert Gentleman)이 만들었습니다. R은 통계언어인 S 와 S+ 의 계보를 잇고 있지만, 무료이며 오픈소스 프로젝트로 개발되고 있습니다.따라서 누구나 인터넷에서 다운로드받아 사용해 볼 수 있습니다.그리고 필요하다면 소스코드를 검증하고 수정할 수 있습니다. 1999년에서 2000년으로 바뀌던 때에 인류는 연도의 4자리가 모두 바뀌는 기념비적 사건에 흥분했다. 하지만 20~30년 후도 대비하지 못했던 컴퓨터... 더보기
  • R로 하는 빅데이터 분석 mi**7172 | 2022-02-04 | 추천: 0 | 5점 만점에 5점
    빅데이터 공부는 이제 남의 일이 아니다. 내가 다니는 직장에서도 빅데이터에 관한 중요성이 나날이 커지고 있고 관련한 부서까지 따로 생길 정도이니 말이다. 나 또한 빅데이터와 관련한 교육을 따로 들어보고 나니 빅데이터에 관한 필요성을 더욱 느끼게 되었다. 그래서 그런지 R로 하는 빅데이터 분석이라는 책이 단순히 프로그래머들에게만 필요한 책이 아니라고 느낀다.  R로 하는 빅데이터 분석은 데이터 전처리와 시각화에 관한 내용을 담았다. 사실 데이터를 만지는 것은 누구에게나 필요한 일이 되었다. 나 또한 업무를 하면서... 더보기
  •   인공지능과 빅데이터에 관련된 이야기가 4차 산업혁명의 핵심으로 떠오르고 있는 시기에 많은 사람들은 시작과  과정에 눈을 돌리기 보다 결과로의 모습만을 더 많이 보고 기대하는듯 해 안타까울 때가 많다. 하나의 프로그래밍을 작성하는 일도 쉽지 않은 일이지만 그런 작업을 통해 우리의 삶에 필요한 도구와의 연결을  시도하는 일은 더더울 어렵다는 생각을 해보게 된다. 세간의 이슈라 할 수 있는 인공지능이나 빅데이터에 대한 연구를 위한 프로그래밍 언어로 R 과 파이썬을 많이  ... 더보기
  • 데이터분석은 이제 인공지능을 배우는 기초가 되었습니다. 인공지능을 배우려면 머신러닝과 딥러닝을 배우지만 그것을 공부하기위한 기초로 데이터분석을 할수가 있어야 합니다. 물론 데이터분석자체만으로도 매우 큰 활용성이 높기는 합니다. 데이터분석은 데이터전처리가 70% 분석이 20% 그리고 시각화가 10%정도의 비율로 중요성을 나누기도 합니다. <R로 하는 빅데이터 분석>은 분석자체보다는 데이터전처리를 좀더 원활히 할 수있도록 학습배분을 합니다. 더우기 이 책은 '제3판'으로 2019년 초판을 발행한 이후 2020년 개... 더보기

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매 후 문장수집 작성 시, 리워드를 제공합니다. 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①서양도서-판매정가의 12%, ②일본도서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함
바로가기
  • 우측 확장형 배너 2
  • 우측 확장형 배너 2
최근 본 상품