본문내용 바로가기
MD의선택 무료배송 이벤트 사은품 경품 소득공제

파이썬을 이용한 웹 크롤링과 스크레이핑 데이터 수집과 분석을 위한 실전 가이드

데이터 사이언스 시리즈 12
카토 코타 지음 | 윤인성 옮김 | 위키북스 | 2018년 03월 22일 출간
| 5점 만점에 0점 리뷰 0개 리뷰쓰기
  • 정가 : 30,000원
    판매가 : 27,000 [10%↓ 3,000원 할인]
  • 통합포인트 :
    [기본적립] 1,500원 적립 [5% 적립] 안내 [추가적립] 5만원 이상 구매 시 2천원 추가적립 [회원혜택] 우수회원 3만원 이상 구매 시 2~4% 추가적립
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    12월 16일 출고 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 행사도서 포함 IT 분야 3만원 이상 구매시 개발자 텀블러티슈 ..
    2019.11.05 ~ 2019.12.31
  • 개발자로 입문하기: 일단 이것부터 읽어보자!
    2019.05.31 ~ 2020.12.31
  • 위키북스의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2020.12.31
  • 웹개발 입문자를 위한 아주 약간의 가이드
    2017.07.11 ~ 2020.12.31
  • #리드잇 페이스북 페이지 팔로우 하시고, 신간소식 빠르게 받아보..
    2017.06.22 ~ 2025.07.31
  • 파이썬 도서 전체 목록입니다. 새로운 책을 발견해보세요!
    2016.08.11 ~ 2020.12.31
  • 설문참여 시 매월 5명 추첨통해 선물을 드립니다.
    10. 14 ~ 12. 31
상품상세정보
ISBN 9791158390952(1158390955)
쪽수 448쪽
크기 185 * 241 * 32 mm /994g 판형알림
이 책의 원서/번역서 PYTHONクロ-リング&スクレイピング デ-タ收集.解析のための實踐開發ガイド/加藤耕太

책소개

이 책이 속한 분야

《파이썬을 이용한 웹 크롤링과 스크레이핑》은 파이썬을 이용한 데이터 수집과 분석을 위해 입문에서 실전까지 상세하게 설명한 책입니다.

기본적인 크롤링과 API를 활용한 데이터 수집은 물론, HTML과 XML 분석부터 데이터 수집 후 분석 및 머신러닝 처리에 대한 설명까지, 데이터를 수집하고 분석해서 활용할 수 있는 방법까지 확실하게 이해할 수 있도록 기초부터 차근차근 알려 줍니다.

웹 서비스 개발이나 데이터 과학 또는 머신러닝 분야에서 실무에 활용하고자 하는 사람들은 물론, 파이썬을 처음 배우는 초보자도 따라 하면서 학습할 수 있게끔 친절하게 구성했으며, 파이썬을 이용한 다양한 라이브러리와 강력한 프레임워크를 활용해 효율적인 개발이 가능하도록 도와줍니다.

저자소개

저자 : 카토 코타

저자 카토 코타
파이썬과의 만남은 Django.
사용하기 쉬운 UI 만들기와 자동화를 좋아함.
간사이에 있는 시스템 통합 업체에서 근무.

저자가 속한 분야

역자 윤인성
출근하는 게 싫어서 책을 집필/번역하기 시작했다. 일본어는 픽시브에서 웹 코믹을 읽다가 배웠다고 전해진다. 현재 직업 특성상 집에서 나갈 이유가 별로 없다는 것에 굉장히 만족하는 성격이기도 하다. 홍차와 커피를 좋아하며 요리, 음악, 그림, 스컬핑 등이 취미다. 『모던 웹을 위한 JavaScript+jQuery 입문』 『모던 웹을 위한 Node.js 프로그래밍』 『모던 웹 디자인을 위한 HTML5+CSS3 입문』 등을 저술하였으며, 『파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문』 『스위프트로 시작하는 아이폰 앱 개발 교과서』 『모던 웹사이트 디자인의 정석』 『유니티 게임 이펙트 입문』(이상 위키북스), 『실전 게임 제작으로 배우는 언리얼 엔진 4』 『TopCoder 알고리즘 트레이닝』 『Nature of Code』(이상 한빛미디어), 『소셜 코딩으로 이끄는 GitHub 실천 기술』(제이펍) 등을 번역했다.

윤인성님의 최근작

전체작품보기

목차

▣ 01장: 크롤링과 스크레이핑이란?
1.1 이 책에서 다루는 영역
___1.1.1 크롤링과 스크레이핑
___1.1.2 크롤링/스크레이핑과 파이썬
___1.1.3 이 책에서 사용하는 플랫폼
___1.1.4 이 책의 구성
1.2 Wget으로 크롤링하기
___1.2.1 Wget이란?
___1.2.2 wget 사용법
___1.2.3 실제 사이트 크롤링하기
1.3 유닉스 명령어로 스크레이핑하기
___1.3.1 유닉스 명령어 기초 지식
___1.3.2 텍스트 처리와 관련된 유닉스 명령어
___1.3.3 정규 표현식
1.4 한빛미디어의 전체 도서 목록 중에서 페이지 하나 출력하기
___1.4.1 도서 목록 추출하기
1.5 정리

▣ 02장: 파이썬으로 시작하는 크롤링/스크레이핑
2.1 파이썬을 사용할 때의 장점
___2.1.1 언어 자체의 특
___2.1.2 강력한 서드파티 라이브러리
___2.1.3 스크레이핑 이후 처리와의 친화성
2.2 파이썬 설치와 실행
___2.2.1 파이썬 2와 파이썬 3
___2.2.2 패키지 매니저로 파이썬 3 설치하기
___2.2.3 가상 환경(venv) 사용하기
___2.2.4 인터랙티브 셸 사용
2.3 파이썬 기초 지식
___2.3.1 스크립트 파일 실행과 구성
___2.3.2 기본적인 데이터 구조
___2.3.3 제어 구조와 함수/클래스 정의
___2.3.4 내장 함수
___2.3.5 모듈
2.4 웹 페이지 추출하기
___2.4.1 urllib으로 웹 페이지 추출하기
___2.4.2 문자 코드 다루기
2.5 웹 페이지에서 데이터 추출하기
___2.5.1 정규 표현식으로 스크레이핑하기
___2.5.2 XML(RSS) 스크레이핑
2.6 데이터 저장하기
___2.6.1 CSV 형식으로 저장하기
___2.6.2 JSON 형식으로 저장하기
___2.6.3 데이터베이스(SQLite3)에 저장하기
2.7 파이썬으로 스크레이핑하는 흐름
2.8 정리

▣ 03장: 주요 라이브러리 활용
3.1 라이브러리 설치
___3.1.1 pip으로 설치하기
3.2 웹 페이지 간단하게 추출하기
3.3 HTML 스크레이핑
___3.3.1 XPath와 CSS 선택자
___3.3.2 lxml로 스크레이핑하기
___3.3.3 Beautiful Soup로 스크레이핑하기
3.4 RSS 스크레이핑하기
3.5 데이터베이스에 저장하기
___3.5.1 MySQL에 데이터 저장하기
___3.5.2 MongoDB에 데이터 저장하기
3.6 크롤러와 URL
___3.6.1 URL 기초 기식
___3.6.2 퍼머링크와 링크 구조 패턴
___3.6.3 재실행을 고려한 데이터 설계
3.7 파이썬으로 크롤러 만들기
___3.7.1 목록 페이지에서 퍼머 링크 목록 추출하기
___3.7.2 상세 페이지에서 스크레이핑하기
___3.7.3 상세 페이지 크롤링하기
___3.7.4 스크레이핑한 데이터 저장하기
3.8 정리

▣ 04장: 크롤러를 사용할 때 기억해야 하는 것
4.1 크롤러 분류하기
___4.1.1 상태를 가지는 지로 분류하기
___4.1.2 자바스크립트를 실행할 수 있는지로 분류하기
___4.1.3 불특정 다수의 사이트를 대상하고 있는지로 분류하기
4.2 크롤러를 만들 때 주의해야 하는 것
___4.2.2 robots.txt로 크롤러에게 지시하기
___4.2.3 XML 사이트맵
___4.2.4 크롤링 대상에 대한 부하
___4.2.5 연락처 명시하기
___4.2.6 상태 코드와 오류 처리
4.3 여러 번 사용을 전제로 설계하기
___4.3.1 변경된 데이터만 추출하기
4.4 크롤링 대상의 변화에 대응하기
___4.4.1 변화 감지하기
___4.4.2 변화 통지하기
4.5 정리

▣ 05장: 크롤링/스크레이핑 실전과 데이터 활용
5.1 데이터 세트 추출과 활용
___5.1.1 위키백과 데이터 세트 다운로드하기
___5.1.2 자연어 처리를 사용한 빈출 단어 추출
5.2 API로 데이터 수집하고 활용하기
___5.2.1 트위터에서 데이터 수집하기
___5.2.2 유튜브에서 동영상 정보 수집하기
5.3 시계열 데이터 수집하고 활용하기
___5.3.1 환율 데이터 수집
___5.3.2 pandas와 CSV 파일
___5.3.3 그래프로 시각화하기
5.4 열린 데이터 수집과 활용
___5.4.1 열린 데이터란?
___5.4.2 PDF에서 데이터 추출하기
___5.4.3 Linked Open Data를 기반으로 데이터 수집하기
5.5 웹 페이지 자동 조작
___5.5.1 자동 조작 구현 방법
___5.5.2 네이버페이 주문 이력 추출하기
5.6 자바스크립트를 이용한 페이지 스크레이핑
___5.6.1 자바스크립트를 사용한 페이지에 대한 대응 방법
___5.6.2 PhantomJS 활용하기
___5.6.3 RSS 피드 생성하기
5.7 추출한 데이터 활용하기
___5.7.1 지도로 시각화하기
___5.7.2 BigQuery로 해석하기
5.8 정리

▣ 06장: Scrapy 프레임워크
6.1 Scrapy 개요
___6.1.1 Scrapy 설치
___6.1.2 Spider 실행하기
6.2 Spider 만들고 실행하기
___6.2.1 Scrapy 프로젝트 만들기
___6.2.2 Item 만들기
___6.2.3 Spider 만들기
___6.2.4 Scrapy Shell로 인터랙티브하게 스크레이핑하기
___6.2.5 Spider 실행하기
6.3 실전적인 크롤링
___6.3.1 크롤링으로 링크 순회하기
___6.3.2 XML 사이트맵을 사용해 크롤링하기
6.4 추출한 데이터 처리하기
___6.4.1 Item Pipeline 개요
___6.4.2 데이터 검증
___6.4.3 MongoDB에 데이터 저장하기
___6.4.4 MySQL에 데이터 저장하기
6.5 Scrapy 설정
___6.5.1 설정 방법
___6.5.2 크롤링 대상에 폐를 끼치지 않기 위한 설정 항목
___6.5.3 병렬 처리와 관련된 설정 항목
___6.5.4 HTTP 요청과 관련된 설정
___6.5.5 HTTP 캐시 설정 항목
___6.5.6 오류 처리와 관련된 설정
___6.5.7 프락시 사용하기
6.6 Scrapy 확장하기
___6.6.1 다운로드 처리 확장하기
___6.6.2 Spider의 동작 확장하기
6.7 크롤링으로 데이터 수집하고 활용하기
___6.7.1 음식점 정보 수집
___6.7.2 불특정 다수의 웹사이트 크롤링하기
6.8 이미지 수집과 활용
___6.8.1 플리커에서 이미지 수집하기
___6.8.2 OpenCV로 얼굴 이미지 추출하기
6.9 정리

▣ 07장: 크롤러의 지속적 운용과 관리
7.1 크롤러를 서버에서 실행하기
___7.1.1 가상 서버 만들기
___7.1.2 서버에 디플로이하기
7.2 크롤러를 정기적으로 실행하기
___7.2.1 Cron 설정
___7.2.2 오류 통지
7.3 크롤링과 스크레이핑 분리하기
___7.3.1 메시지 큐 RQ 사용 방법
___7.3.2 메시지 큐로 연동하기
___7.3.3 메시지 큐 운용하기
7.4 크롤링 성능 향상과 비동기 처리
___7.4.1 멀티 스레드와 멀티 프로세스
___7.4.2 비동기 I/O를 사용해 효율적으로 크롤링하기
7.5 클라우드 활용하기
___7.5.1 클라우드의 장점
___7.5.2 AWS SDK 사용하기
___7.5.3 클라우드 스토리지 사용하기
7.6 정리

▣ 부록: 베이그런트로 개발 환경 구축하기
A.1 버추얼박스와 베이그런트
___A.1.1 버추얼박스란?
___A.1.2 베이그런트란?
A.2 CPU 가상화 지원 기능 활성화하기
___A.2.1 윈도우 10의 경우
___A.2.2 윈도우 7의 경우
___A.2.3 펌웨어 설정으로 가상화 지원 기능 활성화하기
A.3 버추얼박스 설치하기
A.4 베이그런트 설치하기
A.5 가상 머신 실행하기
A.6 게스트 OS에 SSH 접속하기
___A.6.1 Tera Term 설치
___A.6.2 Tera Term으로 게스트 OS에 SSH로 접속하기
A.7 리눅스 기본 조작
___A.7.1 소프트웨어 설치하기
A.8 베이그런트의 가상 머신 조작 명령어
___A.8.1 가상 머신 실행하기(vagrant up)
___A.8.2 가상 머신 종료/재실행하기(vagrant halt/reload)
___A.8.3 가상 머신 제거하기(vagrant destroy)
___A.8.4 가상 머신 상태 출력하기(vagrant status)
___A.8.5 가상 머신에 SSH로 접속하기(vagrant ssh)
___A.8.6 가상 머신 익스포트하기(vagrant package)

출판사 서평

이 책은 크롤링/스크레이핑과 관련된 내용을 정말 자세하게 다루는 책입니다. ‘기본적인 유닉스 명령어를 사용해 크롤링/스크레이핑하는 방법’부터 ‘파이썬 프레임워크인 Scrapy를 사용해 크롤링/스크레이핑하는 방법’까지 현재 사용되고 있는 크롤링/스크레이핑 방법을 전반적으로 다룹니다.

★ 이 책의 구성 ★

1장에서는 파이썬을 사용하지 않고, 유닉스 명령어로 간단하게 크롤링/스크레이핑하는 방법을 소개합니다. 크롤링과 스크레이핑이 무엇인지 조금은 느낄 수 있을 것입니다.

2장에서는 파이썬 표준 라이브러리만으로 크롤링/스크레... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서번역서

안내

이 분야의 베스트

  • 윤인성
    16,200원
  • 길벗알앤디
    27,900원
  • 이남호
    23,310원
  • 선양미
    18,900원
  • 길벗R&D
    32,400원
더보기+

이 분야의 신간

  • 길벗알앤디
    27,900원
  • 다카라지마사
    9,900원
  • 테런스 J. 세즈노스키
    22,500원
  • 이동욱
    19,800원
  • 길벗R&D
    15,300원
더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품