R를 이용한 텍스트 마이닝
도서+교보Only(교보배송)을 함께 15,000원 이상 구매 시 무료배송
15,000원 미만 시 2,500원 배송비 부과
20,000원 미만 시 2,500원 배송비 부과
15,000원 미만 시 2,500원 배송비 부과
1Box 기준 : 도서 10권
해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
패키지
북카드
키워드 Pick
키워드 Pick 안내
관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.
변화와 발전에 맞춘 2020 개정판
작가정보
연세대학교에서 신문방송학을 전공하고 서울대학교 언론정보학 대학원에서 석사 학위를 받았으며 미국 펜실베이니아 대학교 아넨버그 커뮤니케이션 스쿨에서 2011년 박사 학위를 받았다. 한국과학기술원(KAIST) 조교수를 거쳐 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다.
여론조사 및 수용자 조사, 계량적 연구방법에 주로 관심을 두고 연구해 왔다. 현재 R를 이용하여 실험이나 설문자료와 같은 전통적인 사회과학 데이터 분석은 물론, 언론보도 아카이브, 정부 문서, 온라인 공간의 댓글 등과 같은 텍스트 데이터 분석을 시도하고 있다. 사회과학 연구자들이 R를 요령 있게 사용할 수 있도록 꾸준히 소개하면서 R 기반 제한적 종속변수 대상 회귀모형 (2019), R 기반 데이터 과학: tidyverse 접근 (2018), R을 이용한 다층모형 (2018), R를 이용한 사회과학데이터 분석: 구조방정식모형 분석 (2017) 등의 저서를 출간했다.
PLOS ONE, Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting and Electronic Media, American Politics Research, ≪한국언론학보≫ 등 여러 학술지에 논문을 게재했고, 역서로 『포퓰리즘』(2017), 『수학적 커뮤니케이션 이론』(2016), 『국민의 선택: 대통령 선거 캠페인 기간에 유권자는 지지 후보를 어떻게 결정하는가』(2015) 등이 있다.
ㆍ 홈페이지https://sites.google.com/site/ymbaek/
목차
- ㆍ2판 머리말
ㆍ1판 머리말
1부 텍스트 데이터란 무엇인가
01 텍스트를 데이터로 파악하기
2부 텍스트 데이터 처리
01 텍스트 분석을 위한 기초적 R 함수
02 텍스트 분석을 위한 R의 베이스 함수
03 텍스트 분석을 위한 stringr 패키지 함수
04 말뭉치 텍스트 데이터 사전처리
05 한국어 텍스트 데이터 처리
06 품사분석
3부 텍스트 데이터 분석 및 결과 제시
01 텍스트 데이터에 대한 기술통계분석
02 토픽모형
03 감정분석
4부 마무리
01 RSelenium, rvest 패키지를 활용한 온라인 데이터 수집
02 맺음말
별첨 자료
01 자바 설치 방법
02 잠재토픽 개수 선정
출판사 서평
R를 이용한 텍스트 마이닝(개정판)
이번 개정판에는...
첫째, 텍스트 사전처리와 관련된 stringr 패키지에 편리한 기능을의 함수들이 새로 탑재되었다. 이에 따라 2판에서는 stringr 패키지의 함수들을 설명하는 분량이 증가했다.
둘째, 1판에서 사용한 말뭉치(corpus) 데이터를 업데이트했다.
셋째, KoNLP 패키지에서 기존 사전에 이용자가 지정 표현을 추가하하는 방법을 소개했다. 또한 KoNLP 패키지 외에 한국어 형태소 분석이 가능한 R 패키지들을 간단하게 소개했다.
넷째, 텍스트 내부의 단어와 단어의 연관 관계를 설명에 널리 사용되는 연관 규칙(association rule) 분석을 새로 소개했다.
다섯째, 잠재적 디리클레 할당(latent Dirichlet allocation, LDA) 모형에서 최적의 잠재토픽 개수를 추정하는 방법을 추가로 소개했다.
여섯째, 적은 수의 단어로 구성된 짧은 텍스트(예를 들어 140자 이내의 트윗, 온라인 Q&A 게시판, 광고 문구 등)에서 잠재토픽을 추정하는 데 특화된 토픽모형들 중 하나로 ‘공통단어등장 토픽모형(biterm topic model, BTM)’을 추가로 소개했다.
일곱째, 타이디데이터 관점에서 데이터를 조직하고 관리하는 tidyverse 접근법을 기반으로 하는 텍스트 데이터 분석기법들을 대폭 추가했다.
여덟째, 감정어휘 사전(sentiment lexicon)을 이용한 감정분석(sentiment analysis) 내용은 거의 대부분을 새로 작성했다. 우선 영어 텍스트의 경우 최근 새로운 감정어휘 사전들이 개발되어 공개되면서, 이를 다운로드받을 수 있는 textdata 패키지를 새로 소개하게 되었다.
아홉째, caret 패키지를 이용해 지도 기계학습 기법을 소개했다.
끝으로 웹 스크레이핑(scraping)을 소개하는 부분은 완전히 새로 작성했다. 1판에서는 실렉터가젯(selectorGadget)이라는 프로그램을 위주로 웹 스크레이핑을 설명했으나, 온라인 공간의 웹페이지 구성 방식 변화로 인해 실렉터가젯을 활용한 웹 스크레이핑 적용 영역은 크게 감소했다. 2판에서는 모바일 환경에 특화된 그리고 반응형 웹 페이지가 주류인 현재의 온라인 공간에 더 적합한 RSelenium 패키지와 rvest 패키지를 이용한 웹 스크레이핑 방법을 간략하게 소개했다.
이번 개정판은 흑백으로 인쇄되었던 초판과 달리 컬러로 인쇄해 독자들이 출력 결과물을 실제 색으로 확인할 수 있다. 코드 부분도 본문과 색을 다르게 인쇄하여 가시성을 높였다.
출간 의의
프로그램의 작동법을 아는 것과 그것을 이용헤 제대로 된 결과물을 얻는 것은 별개이다. R이 강력한 도구임에는 틀림없지만 그 도구를 어떻게 써야 하는지 배우는 데는 상당한 노력이 필요하다. 특히 일반적, 피상적 사용법으로는 나에게 맞는 최적의 결과물을 만들어 내기 어렵다.
저자는 자신의 연구 데이터를 분석하기 위한 도구로서 R을 다루어 왔고 여론조사 및 수용자 조사, 계량적 연구 방법에 주로 관심을 두고 연구해 왔다. 저자 자신의 시행착오와 교차검층을 통해 확인된 결과를 제시하고 있다는 점이 이 책을 더욱 가치게 한다. 이 책은 기존의 영어 텍스트 처리 방식뿐만 아니라 우리말에 특화된 방식도 자세하게 예제를 통해 설명하고 있어 특히 도움이 된다.
자신의 연구를 위해 또 데이터 분석을 위해 R를 이용하고자 하는 사람은 저자의 친절한 설명과 자세한 코드 등을 이용해 보다 쉽게 텍스트 마이닝에 도전해 볼 수 있을 것이다.
기본정보
ISBN | 9788946072190 |
---|---|
발행(출시)일자 | 2020년 03월 10일 |
쪽수 | 424쪽 |
크기 |
173 * 246
* 26
mm
/ 756 g
|
총권수 | 1권 |
Klover
e교환권은 적립 일로부터 180일 동안 사용 가능합니다.
리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 리뷰 종류별로 구매한 아이디당 한 상품에 최초 1회 작성 건들에 대해서만 제공됩니다.
판매가 1,000원 미만 도서의 경우 리워드 지급 대상에서 제외됩니다.
일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
리뷰는 1인이 중복으로 작성하실 수는 있지만, 평점계산은 가장 최근에 남긴 1건의 리뷰만 반영됩니다.
구매 후 리뷰 작성 시, e교환권 200원 적립
문장수집
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
구매 후 리뷰 작성 시, e교환권 100원 적립