본문내용 바로가기
MD의선택 무료배송 이벤트 사은품 소득공제

파이썬을 이용한 웹 크롤링과 스크레이핑 데이터 수집과 분석을 위한 실전 가이드

데이터 사이언스 시리즈 12
카토 코타 지음 | 윤인성 옮김 | 위키북스 | 2018년 03월 22일 출간
클로버 리뷰쓰기
  • 정가 : 30,000원
    판매가 : 27,000 [10%↓ 3,000원 할인]
  • 혜택 :
    [기본적립] 1500원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2,000원 추가적립 안내 [회원혜택] 회원 등급 별, 3만원 이상 구매 시 2~4% 추가적립 안내 [리뷰적립] 리뷰 작성 시 e교환권 최대 300원 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    지금 주문하면 내일(13일,목) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트

해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
  • 행사도서 포함 2만원 이상 구매 시
    2021.04.28 ~ 2021.05.28
  • 책을 통해 성장해나가는 개발자를 응원합니다.
    2017.06.22 ~ 2025.07.31
  • 새로운 파이썬 책을 발견해보세요! 전체 목록 다운로드 제공!
    2016.08.11 ~ 2021.12.31
상품상세정보
ISBN 9791158390952(1158390955)
쪽수 448쪽
크기 185 * 241 * 32 mm /994g 판형알림
이 책의 원서/번역서 PYTHONクロ-リング&スクレイピング デ-タ收集.解析のための實踐開發ガイド / 加藤耕太

책소개

이 책이 속한 분야

《파이썬을 이용한 웹 크롤링과 스크레이핑》은 파이썬을 이용한 데이터 수집과 분석을 위해 입문에서 실전까지 상세하게 설명한 책입니다.

기본적인 크롤링과 API를 활용한 데이터 수집은 물론, HTML과 XML 분석부터 데이터 수집 후 분석 및 머신러닝 처리에 대한 설명까지, 데이터를 수집하고 분석해서 활용할 수 있는 방법까지 확실하게 이해할 수 있도록 기초부터 차근차근 알려 줍니다.

웹 서비스 개발이나 데이터 과학 또는 머신러닝 분야에서 실무에 활용하고자 하는 사람들은 물론, 파이썬을 처음 배우는 초보자도 따라 하면서 학습할 수 있게끔 친절하게 구성했으며, 파이썬을 이용한 다양한 라이브러리와 강력한 프레임워크를 활용해 효율적인 개발이 가능하도록 도와줍니다.

목차

▣ 01장: 크롤링과 스크레이핑이란?
1.1 이 책에서 다루는 영역
___1.1.1 크롤링과 스크레이핑
___1.1.2 크롤링/스크레이핑과 파이썬
___1.1.3 이 책에서 사용하는 플랫폼
___1.1.4 이 책의 구성
1.2 Wget으로 크롤링하기
___1.2.1 Wget이란?
___1.2.2 wget 사용법
___1.2.3 실제 사이트 크롤링하기
1.3 유닉스 명령어로 스크레이핑하기
___1.3.1 유닉스 명령어 기초 지식
___1.3.2 텍스트 처리와 관련된 유닉스 명령어
___1.3.3 정규 표현식
1.4 한빛미디어의 전체 도서 목록 중에서 페이지 하나 출력하기
___1.4.1 도서 목록 추출하기
1.5 정리

▣ 02장: 파이썬으로 시작하는 크롤링/스크레이핑
2.1 파이썬을 사용할 때의 장점
___2.1.1 언어 자체의 특
___2.1.2 강력한 서드파티 라이브러리
___2.1.3 스크레이핑 이후 처리와의 친화성
2.2 파이썬 설치와 실행
___2.2.1 파이썬 2와 파이썬 3
___2.2.2 패키지 매니저로 파이썬 3 설치하기
___2.2.3 가상 환경(venv) 사용하기
___2.2.4 인터랙티브 셸 사용
2.3 파이썬 기초 지식
___2.3.1 스크립트 파일 실행과 구성
___2.3.2 기본적인 데이터 구조
___2.3.3 제어 구조와 함수/클래스 정의
___2.3.4 내장 함수
___2.3.5 모듈
2.4 웹 페이지 추출하기
___2.4.1 urllib으로 웹 페이지 추출하기
___2.4.2 문자 코드 다루기
2.5 웹 페이지에서 데이터 추출하기
___2.5.1 정규 표현식으로 스크레이핑하기
___2.5.2 XML(RSS) 스크레이핑
2.6 데이터 저장하기
___2.6.1 CSV 형식으로 저장하기
___2.6.2 JSON 형식으로 저장하기
___2.6.3 데이터베이스(SQLite3)에 저장하기
2.7 파이썬으로 스크레이핑하는 흐름
2.8 정리

▣ 03장: 주요 라이브러리 활용
3.1 라이브러리 설치
___3.1.1 pip으로 설치하기
3.2 웹 페이지 간단하게 추출하기
3.3 HTML 스크레이핑
___3.3.1 XPath와 CSS 선택자
___3.3.2 lxml로 스크레이핑하기
___3.3.3 Beautiful Soup로 스크레이핑하기
3.4 RSS 스크레이핑하기
3.5 데이터베이스에 저장하기
___3.5.1 MySQL에 데이터 저장하기
___3.5.2 MongoDB에 데이터 저장하기
3.6 크롤러와 URL
___3.6.1 URL 기초 기식
___3.6.2 퍼머링크와 링크 구조 패턴
___3.6.3 재실행을 고려한 데이터 설계
3.7 파이썬으로 크롤러 만들기
___3.7.1 목록 페이지에서 퍼머 링크 목록 추출하기
___3.7.2 상세 페이지에서 스크레이핑하기
___3.7.3 상세 페이지 크롤링하기
___3.7.4 스크레이핑한 데이터 저장하기
3.8 정리

▣ 04장: 크롤러를 사용할 때 기억해야 하는 것
4.1 크롤러 분류하기
___4.1.1 상태를 가지는 지로 분류하기
___4.1.2 자바스크립트를 실행할 수 있는지로 분류하기
___4.1.3 불특정 다수의 사이트를 대상하고 있는지로 분류하기
4.2 크롤러를 만들 때 주의해야 하는 것
___4.2.2 robots.txt로 크롤러에게 지시하기
___4.2.3 XML 사이트맵
___4.2.4 크롤링 대상에 대한 부하
___4.2.5 연락처 명시하기
___4.2.6 상태 코드와 오류 처리
4.3 여러 번 사용을 전제로 설계하기
___4.3.1 변경된 데이터만 추출하기
4.4 크롤링 대상의 변화에 대응하기
___4.4.1 변화 감지하기
___4.4.2 변화 통지하기
4.5 정리

▣ 05장: 크롤링/스크레이핑 실전과 데이터 활용
5.1 데이터 세트 추출과 활용
___5.1.1 위키백과 데이터 세트 다운로드하기
___5.1.2 자연어 처리를 사용한 빈출 단어 추출
5.2 API로 데이터 수집하고 활용하기
___5.2.1 트위터에서 데이터 수집하기
___5.2.2 유튜브에서 동영상 정보 수집하기
5.3 시계열 데이터 수집하고 활용하기
___5.3.1 환율 데이터 수집
___5.3.2 pandas와 CSV 파일
___5.3.3 그래프로 시각화하기
5.4 열린 데이터 수집과 활용
___5.4.1 열린 데이터란?
___5.4.2 PDF에서 데이터 추출하기
___5.4.3 Linked Open Data를 기반으로 데이터 수집하기
5.5 웹 페이지 자동 조작
___5.5.1 자동 조작 구현 방법
___5.5.2 네이버페이 주문 이력 추출하기
5.6 자바스크립트를 이용한 페이지 스크레이핑
___5.6.1 자바스크립트를 사용한 페이지에 대한 대응 방법
___5.6.2 PhantomJS 활용하기
___5.6.3 RSS 피드 생성하기
5.7 추출한 데이터 활용하기
___5.7.1 지도로 시각화하기
___5.7.2 BigQuery로 해석하기
5.8 정리

▣ 06장: Scrapy 프레임워크
6.1 Scrapy 개요
___6.1.1 Scrapy 설치
___6.1.2 Spider 실행하기
6.2 Spider 만들고 실행하기
___6.2.1 Scrapy 프로젝트 만들기
___6.2.2 Item 만들기
___6.2.3 Spider 만들기
___6.2.4 Scrapy Shell로 인터랙티브하게 스크레이핑하기
___6.2.5 Spider 실행하기
6.3 실전적인 크롤링
___6.3.1 크롤링으로 링크 순회하기
___6.3.2 XML 사이트맵을 사용해 크롤링하기
6.4 추출한 데이터 처리하기
___6.4.1 Item Pipeline 개요
___6.4.2 데이터 검증
___6.4.3 MongoDB에 데이터 저장하기
___6.4.4 MySQL에 데이터 저장하기
6.5 Scrapy 설정
___6.5.1 설정 방법
___6.5.2 크롤링 대상에 폐를 끼치지 않기 위한 설정 항목
___6.5.3 병렬 처리와 관련된 설정 항목
___6.5.4 HTTP 요청과 관련된 설정
___6.5.5 HTTP 캐시 설정 항목
___6.5.6 오류 처리와 관련된 설정
___6.5.7 프락시 사용하기
6.6 Scrapy 확장하기
___6.6.1 다운로드 처리 확장하기
___6.6.2 Spider의 동작 확장하기
6.7 크롤링으로 데이터 수집하고 활용하기
___6.7.1 음식점 정보 수집
___6.7.2 불특정 다수의 웹사이트 크롤링하기
6.8 이미지 수집과 활용
___6.8.1 플리커에서 이미지 수집하기
___6.8.2 OpenCV로 얼굴 이미지 추출하기
6.9 정리

▣ 07장: 크롤러의 지속적 운용과 관리
7.1 크롤러를 서버에서 실행하기
___7.1.1 가상 서버 만들기
___7.1.2 서버에 디플로이하기
7.2 크롤러를 정기적으로 실행하기
___7.2.1 Cron 설정
___7.2.2 오류 통지
7.3 크롤링과 스크레이핑 분리하기
___7.3.1 메시지 큐 RQ 사용 방법
___7.3.2 메시지 큐로 연동하기
___7.3.3 메시지 큐 운용하기
7.4 크롤링 성능 향상과 비동기 처리
___7.4.1 멀티 스레드와 멀티 프로세스
___7.4.2 비동기 I/O를 사용해 효율적으로 크롤링하기
7.5 클라우드 활용하기
___7.5.1 클라우드의 장점
___7.5.2 AWS SDK 사용하기
___7.5.3 클라우드 스토리지 사용하기
7.6 정리

▣ 부록: 베이그런트로 개발 환경 구축하기
A.1 버추얼박스와 베이그런트
___A.1.1 버추얼박스란?
___A.1.2 베이그런트란?
A.2 CPU 가상화 지원 기능 활성화하기
___A.2.1 윈도우 10의 경우
___A.2.2 윈도우 7의 경우
___A.2.3 펌웨어 설정으로 가상화 지원 기능 활성화하기
A.3 버추얼박스 설치하기
A.4 베이그런트 설치하기
A.5 가상 머신 실행하기
A.6 게스트 OS에 SSH 접속하기
___A.6.1 Tera Term 설치
___A.6.2 Tera Term으로 게스트 OS에 SSH로 접속하기
A.7 리눅스 기본 조작
___A.7.1 소프트웨어 설치하기
A.8 베이그런트의 가상 머신 조작 명령어
___A.8.1 가상 머신 실행하기(vagrant up)
___A.8.2 가상 머신 종료/재실행하기(vagrant halt/reload)
___A.8.3 가상 머신 제거하기(vagrant destroy)
___A.8.4 가상 머신 상태 출력하기(vagrant status)
___A.8.5 가상 머신에 SSH로 접속하기(vagrant ssh)
___A.8.6 가상 머신 익스포트하기(vagrant package)

출판사 서평

이 책은 크롤링/스크레이핑과 관련된 내용을 정말 자세하게 다루는 책입니다. ‘기본적인 유닉스 명령어를 사용해 크롤링/스크레이핑하는 방법’부터 ‘파이썬 프레임워크인 Scrapy를 사용해 크롤링/스크레이핑하는 방법’까지 현재 사용되고 있는 크롤링/스크레이핑 방법을 전반적으로 다룹니다.

★ 이 책의 구성 ★

1장에서는 파이썬을 사용하지 않고, 유닉스 명령어로 간단하게 크롤링/스크레이핑하는 방법을 소개합니다. 크롤링과 스크레이핑이 무엇인지 조금은 느낄 수 있을 것입니다.

2장에서는 파이썬 표준 라이브러리만으로 크롤링/스크레... 더보기

Klover 리뷰 (0)

북로그 리뷰 (0) 쓰러가기

북로그 리뷰는 본인 인증 후 작성 가능합니다.
책이나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 내용은 비공개 처리 될 수 있습니다.
※ 북로그 리뷰 리워드 제공 2021. 4. 1 종료

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매 후 문장수집 작성 시, 리워드를 제공합니다. 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①서양도서-판매정가의 12%, ②일본도서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서/번역서

안내

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품