본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

파이썬 웹 스크래핑 다양한 상황 해결을 통한 웹 스크랩

acorn+PACKT 시리즈
리차드 로손 지음 | 김영하 옮김 | 에이콘출판 | 2017년 04월 27일 출간

이 책의 다른 상품 정보

  • 정가 : 20,000원
    판매가 : 18,000 [10%↓ 2,000원 할인]
  • 통합포인트 :
    [기본적립] 1,000원 적립 [5% 적립] 안내 [추가적립] 5만원 이상 구매 시 2천원 추가적립 [회원혜택] 우수회원 3만원 이상 구매 시 2~4% 추가적립
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(22일,토) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 개발자로 입문하기: 일단 이것부터 읽어보자!
    2019.05.31 ~ 2020.12.31
  • 에이콘의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2020.12.31
  • 웹개발 입문자를 위한 아주 약간의 가이드
    2017.07.11 ~ 2020.12.31
  • #리드잇 페이스북 페이지 팔로우 하시고, 신간소식 빠르게 받아보..
    2017.06.22 ~ 2025.07.31
  • 파이썬 도서 전체 목록입니다. 새로운 책을 발견해보세요!
    2016.08.11 ~ 2020.12.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2020.12.31
상품상세정보
ISBN 9788960779594(8960779598)
쪽수 224쪽
크기 190 * 236 * 18 mm /562g 판형알림
이 책의 원서/번역서 Web Scraping with Python/Richard Lawson

책소개

이 책이 속한 분야

[파이썬 웹 스크래핑]은 웹 스크랩의 기본 개념과 파이썬 3를 이용해 쉽고 빠르게 웹 스크래핑하는 방법을 알려준다. 웹사이트를 다운로드해 정규식을 통해서 스크랩하는 방식부터 파이썬 라이브러리(Scrapy, Selenium)까지 점차 개념을 확장해나가 기초를 다질 수 있다. 여러 상황을 고려한 예제로 기본 원리를 테스트할 수 있으며, 배운 방법을 실제 서비스를 제공하는 웹사이트에 적용하는 방법도 배울 수 있다.

이 책의 총서

총서 자세히 보기

저자소개

저자 : 리차드 로손

저자 리차드 로손(Richard Lawson)은 오스트레일리아 출신으로 멜버른대학교에서 전산학을 전공했다. 졸업 후, 웹 스크랩을 전문으로 하는 사업을 시작했고 50개국이 넘는 곳을 원격으로 일하며 세계를 여행한다. 유창하게 에스페란토어를 사용하고 중국어와 한국어로 대화할 수 있으며, 오픈소스 소프트웨어에 참여하고 번역하는 일에 활동적이다. 현재 옥스포드 대학에서 대학원 과정에 있으며 여가에는 드론 개발을 즐긴다.

역자 : 김영하

역자 김영하는 타임게이트에서 소프트웨어연구소 수석 연구원으로서 머신 데이터 플랫폼(Splunk)와 모니터링 솔루션 eG의 기술 지원을 담당하고 있다. 또한 타임게이트 자체 제품인 가상화 관리 및 모니터링을 개발한다

작가의 말

인터넷에는 정말 유용할 데이터들을 갖고 있으며, 이 데이터는 공개돼 있고 공짜로 접근할 수 있다. 그러나 이런 데이터는 쉽게 재사용하기 어렵다. 웹사이트의 구조와 스타일에 맞게 구성돼야 하고 유용하게 추출돼야 한다. 웹 페이지에서 데이터를 추출하는 과정은 웹 스크래핑이라고 알려져 있고 온라인상에서 이용 가능한 정보들로 계속해서 유용하게 되고 있다. - 저자

요즘도 수집하는 사람이 있을지 모르겠지만, 드라마 <응답하라 1988>의 시대를 기억하는 사람이라면 좋아하는 연예인의 기사를 예쁘게 오려 수집한 기억이 있으리라. 신문 및 잡지라는 큰 정보의 덩어리에서 원하는 부분을 칼이나 가위로 오려 노트에 붙인 것이다. 이런 아날로그적인 방법이 현대에 와서는 디지털 방식으로 전환되고 있다.
개인적으로 스플렁크(Splunk)라는 빅데이터 플랫폼의 업무를 담당하면서 자료의 수집 및 저장에 대한 관심이 많아졌다. 요즘 각종 서비스들이 데이터 공유를 위해 API를 제공하면서 수집이 쉬워졌다. 하지만 원하는 데이터를 얻기에는 제한적이기에 웹 크롤링(Web Crawling)을 통해 수집해서 웹 스크래핑(Web Scraping)으로 원하는 부분을 추출하는 과정이 필요하다.
이 책은 웹 스크래핑에 대한 법적 문제를 먼저 다루고 기술적인 방법의 가장 기초적인 단계에서 점점 발전시켜 Scrapy라는 수집 전문 프레임워크까지 다룬다. 제로 웹 페이지에서 발생할 수 있는 상황에 대한 모든 부분을 다룬다. 많은 웹 페이지를 다운로드하면서 캡차(Captcha)나 로그인, 동적 데이터 처리 등 책에서 제시한 경우를 따라 하다 보면 어느덧 웹 스크래핑에 자신감을 느끼게 될 것이다.
이 책은 독자가 파이썬에 대한 기본 지식이 있다고 가정하기 때문에 파이썬 언어 자체에 대한 설명은 없다. 책 자체는 얇지만 내용은 아주 풍부하다.
이 한국어판이 나오기까지 정말 많은 시간이 걸렸다. 파이썬 2로 만들어진 내용을 파이썬 3로 바꾸면서 가급적이면 실행되도록 수정했지만 실행 및 개선 사항이 있다면, 언제든지 연락 바란다. - 역자

목차

1장. 웹 스크래핑 소개
__웹 스크래핑은 언제 필요한가?
__웹 스크래핑은 합법적인가?
__사전 조사
____robots.txt 확인
____Sitemap 살펴보기
____웹사이트의 크기 추정
____웹사이트에 사용된 웹 기술 확인
____웹사이트 소유자 찾기
__첫 번째 웹사이트 크롤링
____웹사이트 다운로드
______다운로드 재시도
______사용자 에이전트 설정
____Sitemap 크롤러
____ID 반복 크롤러
____링크 크롤러
______고급 기능
__요약

2장. 데이터 스크래핑
__웹 페이지 분석
__웹 페이지를 스크랩하는 3가지 방법
____정규식
____Beautiful Soup
____Lxml
______CSS 선택자
____성능 비교
______스크래핑 결과
____개요
____링크 크롤러에 스크랩 콜백 추가
__요약

3장. 캐시를 사용한 다운로드
__링크 크롤러에 캐시 기능 추가
__디스크 캐시 사용
____기능 구현
____캐시 테스트
____저장 디스크량 줄이기
____오래된 데이터 삭제
____디스크 캐시의 단점
__데이터베이스 캐시
____NoSQL이란?
____몽고DB 설치
____몽고DB 개요
____몽고DB 캐시 구현
____압축
____캐시 테스트
__요약

4장. 병렬 다운로드
__100만 개 웹 페이지
____Alexa 목록 분석
__순차적 크롤러
__스레드 크롤러
____스레드와 프로세스 동작 방식
____구현
____상호프로세스 크롤러
__성능
__요약

5장. 동적 생성 콘텐츠
__동적 웹 페이지 예제
__동적 웹 페이지 분석
____에지 케이스
__동적 웹 페이지 렌더링
____PyQt와 PySide
____자바스크립트 실행
____웹킷으로 웹사이트 처리
______결과 기다리기
______렌더 클래스
____셀레니움
__요약

6장. 폼 처리
__로그인 폼
____웹 브라우저에서 쿠키 가져오기
__내용을 최신화하는 로그인 스크립트 확장
__Mechanize 모듈로 폼 처리 자동화
__요약

7장. 캡차 해결
__계정 등록
____캡차 이미지 로딩
__광학 문자 인식
____개선할 사항
__복잡한 캡차 해결
____캡차 처리 서비스 이용
____9kw 시작
______9kw CAPTCHA API
____등록 통합
__요약

8장. Scrapy
__설치
__프로젝트 시작
____모델 정의
____스파이더 생성
______설정 조정
______스파이더 테스트
____shell 커맨드로 스크래핑
____결과 확인
____크롤링 중단과 재개
__포르티아로 시각적 스크래핑
____설치
____어노테이션
____스파이더 개선
____결과 확인
__Scrapely로 수집 자동화
__요약

9장. 실제 웹사이트 적용
__구글 검색 엔진
__페이스북
____웹사이트
____API
__갭
__BMW
__요약

출판사 서평

★ 이 책에서 다루는 내용 ★

■ 웹사이트 수집을 위한 링크 선택 방법
■ lxml을 이용한 웹사이트 데이터 추출
■ 동시에 여러 웹 페이지를 처리하기 위해 스레드를 사용하는 크롤러 제작
■ 대역폭을 줄이기 위한 다운로드 캐시
■ 자바스크립트 기반 웹사이트를 분석하는 방법
■ 폼과 세션을 처리하는 방법
■ 캡차(CAPTCHA)로 보호되는 웹사이트 처리
■ AJAX 호출 리버스 엔지니어링
■ Scrapy로 고급 스크래퍼 제작

★ 이 책의 대상 독자 ★

웹사이트에서 데이터를 스크랩하기 위해 믿을 만한 프로... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서번역서

안내

이 분야의 베스트

  • 길벗알앤디
    27,900원
  • 길벗R&D
    17,100원
  • 한국데이터진흥원
    16,200원
  • 길벗R&D
    12,600원
  • 윤인성
    16,200원
더보기+

이 분야의 신간

  • 조블리(조애리)
    20,700원
  • 김정준
    29,700원
  • 윤종식
    25,200원
  • NCS 정보처리기술사 연구회
    25,200원
  • 이남호
    23,310원
더보기+

이 책의 연관도서

  • 이강성
    31,500원
  • 데이비드 M. 비즐리
    34,200원
  • 신호철
    25,200원
  • 제이슨 R. 브리그스
    24,300원
  • 웨스 맥키니
    29,700원
더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품