본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

R로 배우는 텍스트 마이닝 tidytext 라이브러리를 활용하는 방법

줄리아 실기 , 데이비드 로빈슨 지음 | 박진수 옮김 | 제이펍 | 2019년 06월 04일 출간
클로버 리뷰쓰기

이 책의 다른 상품 정보

  • 정가 : 20,000원
    판매가 : 18,000 [10%↓ 2,000원 할인]
  • 통합포인트 :
    [기본적립] 1,000원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2천원 추가적립 안내 [회원혜택] 실버등급 이상, 3만원 이상 구매 시 2~4% 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(12일,수) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 새로 출간된 O'Reilly 번역서를 확인해보세요!
    2019.06.14 ~ 2020.12.31
  • 개발자로 입문하기: 일단 이것부터 읽어보자!
    2019.05.31 ~ 2020.12.31
  • 제이펍의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2020.12.31
  • 개발자님, 인터넷교보 IT분야 부캐 '리드잇'..
    2017.06.22 ~ 2025.07.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2020.12.31
상품상세정보
ISBN 9791188621552(1188621556)
쪽수 232쪽
크기 188 * 245 * 18 mm /566g 판형알림
원서명/저자명 [보유]Text Mining with R/Julia Silge

책소개

이 책이 속한 분야

텍스트 데이터를 정리하고 시각화하기 위한 새로운 방법!
tidytext 라이브러리와 그 밖의 정돈 텍스트 분석 방법을 배운다!

요즘 사용할 만한 데이터는 비정형 데이터이거나 텍스트 위주로 구성되어 있다. 하지만 이러한 데이터는 분석가들이 일상적으로 사용하는 데이터 랭글링 도구나 시각화 도구를 적용하기가 쉽지 않다. 그러나 줄리아 실기와 데이비드 로빈슨이 개발한 tidytext 패키지라면 이야기가 달라진다. tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 정돈(tidy, 깔끔화) 원리를 바탕으로 개발되었는데, 이 책을 통해 여러분은 tidytext와 R에서 쓸 수 있는 그 밖의 정돈 도구들로 텍스트를 더욱 쉽고 효율적으로 분석하는 방법을 익힐 수 있다.

상세이미지

R로 배우는 텍스트 마이닝 도서 상세이미지

저자소개

저자 : 줄리아 실기

(Julia Silge)
줄리아는 스택 오버플로에서 일하는 데이터 과학자다. 복잡한 데이터셋들을 분석하기도 하고 기술적 주제로 다양한 청중과 소통하기도 한다. 천체물리학 박사이며, 제인 오스틴을 사랑하고, 아름다운 도표 그리기를 좋아한다.

저자 : 데이비드 로빈슨

(David Robinson)
데이비드는 스택 오버플로에서 데이터 과학자로 근무하고 있으며, 프린스턴대학교에서 전산생물학 박사 학위를 받았다. broom, gganimate, fuzzyjoin, widyr 같은 R 패키지를 주로 오픈소스 형태로 개발한다.

역자 : 박진수

다양한 정보기술 분야 경력과 저술/번역 경험을 바탕으로 IT 융·복합 사업을 꿈꾸는, 1인 회사 ‘리율’의 대표다. 옮긴 책으로는 《케라스 창시자의 딥러닝 with R》, 《모두를 위한 실용 전자공학》, 《해킹 일렉트로닉스》와 《ggplot2》 등이 있다.

목차

CHAPTER 1 정돈 텍스트(깔끔한 텍스트) 형식 1
정돈 텍스트와 다른 데이터 구조 비교하기 2
unnest_tokens 함수 3
제인 오스틴의 작품 정돈하기 6
gutenbergr 패키지 10
단어 빈도 10
요약 16

CHAPTER 2 정돈 데이터를 사용한 정서분석 17
정서 데이터셋 18
내부 조인을 사용한 정서분석 21
세 가지 정서 사전 비교 25
가장 흔한 긍정 단어와 부정 단어 28
워드 클라우드 30
단순한 단어 이상인 단위 보기 32
요약 35

CHAPTER 3 단어와 문서의 빈도 분석: tf-idf 37
제인 오스틴의 소설 속 용어빈도 38
지프의 법칙 40
bind_tf_idf 함수 44
물리학 텍스트의 말뭉치 47
요약 53

CHAPTER 4 단어 간 관계: 엔그램과 상관 55
엔그램에 의한 토큰화 56
엔그램 개수 세기와 선별하기 57
바이그램 분석 59
정서분석 시 바이그램을 사용해 문맥 제공하기 62
ggraph를 사용해 바이그램 연결망 시각화화기 65
그 밖의 텍스트에 들어 있는 바이그램 시각화하기 71
widyr 패키지와 단어 쌍 세기 및 상관 73
각 단원 간의 개수 세기 및 상관 74
쌍 단위 상관 검사 76
요약 81

CHAPTER 5 비정돈 형식 간에 변환하기 83
문서-용어 행렬 정돈하기 84
DocumentTermMatrix 객체 정돈하기 85
dfm 객체 정돈하기 89
정돈 텍스트 데이터를 행렬에 캐스팅하기 92
Corpus 객체를 메타데이터로 정돈하기 94
사례 연구: 금융 관련 기사 마이닝 97
요약 104

CHAPTER 6 토픽 모델링 105
잠재 디리클레 할당 106
단어-토픽 확률 108
문서-토픽 확률 111
예제: 대도서관 강도 113
각 장의 LDA 115
문서당 분류 118
단어별 할당: augment 121
대체 LDA 구현 125
요약 127

CHAPTER 7 사례 연구: 트위터 아카이브 비교 129
데이터 및 트위터 분포 얻기 129
단어 빈도 131
단어 용도 비교 135
단어 사용 변화 137
즐겨찾기 및 리트윗 143
요약 148

CHAPTER 8 사례 연구: NASA 메타데이터 마이닝 149
NASA가 데이터를 조직하는 방식 150
데이터 랭글링과 정돈 151
일부 초기 단순 탐사 154
단어 동시 발생과 상관 156
설명 및 제목 단어 연결망 156
중요어 연결망 159
설명 필드에 대한 tf-idf 계산 163
설명 필드 단어의 tf-idf는 무엇인가? 163
설명 필드를 중요어에 연결하기 164
토픽 모델링 166
문서-용어 행렬에 캐스팅하기 166
토픽 모델링 준비 167
토픽 모델 해석 168
토픽 모델링을 중요어와 연결하기 175
요약 178

CHAPTER 9 사례 연구: 유즈넷 텍스트 분석 179
전처리 179
텍스트 전처리 181
뉴스그룹의 단어들 183
뉴스그룹 내에서 tf-idf 찾기 184
토픽 모델링 187
정서분석 190
단어별 정서분석 191
메시지별 정서분석 194
엔그램 분석 197
요약 199

참고문헌 201
찾아보기 203

추천사

해들리 위컴

데이비드와 줄리아는 R을 사용한 텍스트 분석 작업을 변화시켰다. tidytext를 사용한다면 굳이 새로운 도구들을 익히지 않아도 된다. 오히려 데이터 프레임 조작이나 데이터 프레임 시각화에 관해 여러분이 이미 알고 있는 바를... 더보기

책 속으로

제인 오스틴(Jane Austen)이 탈고해 출판한 소설 여섯 개를 janeaustenr 패키지에서 가져온 다음 정돈 형식으로 변형해 보자. janeaustenr 패키지는 텍스트를 1줄당 1행(one-row-per-line) 형식으로 제공하는데, 이 맥락에서 의미하는 줄(line)이란 실제 도서의 원문에 맞춰 인쇄된 한 줄을 말한다. 이것을 사용해 정돈 작업에 착수하되 mutate()를 사용해 linenumber 수에 해당하는 만큼을 주석으로 처리함으로써 원래 줄 형식을 추적하는 데 사용하고, chapter(regex 사용)를 사용... 더보기

출판사 서평

텍스트 데이터를 정리하고 시각화하기 위한 새로운 방법!
tidytext 라이브러리와 그 밖의 정돈 텍스트 분석 방법을 배운다!

요즘 사용할 만한 데이터는 비정형 데이터이거나 텍스트 위주로 구성되어 있다. 하지만 이러한 데이터는 분석가들이 일상적으로 사용하는 데이터 랭글링 도구나 시각화 도구를 적용하기가 쉽지 않다. 그러나 줄리아 실기와 데이비드 로빈슨이 개발한 tidytext 패키지라면 이야기가 달라진다. tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 정돈(tidy, 깔끔화) 원리를 바탕으로... 더보기

Klover 리뷰 (0)

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면
결제 90일 이내 300원, 발송 후 5일 이내 400원, 이 상품의 첫 리뷰 500원의 포인트를 드립니다.

포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
북로그 리뷰는 본인인증을 거친 회원만 작성 가능합니다.
(※ 외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외) 안내
  • 해당도서의 리뷰가 없습니다.

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서

안내

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품