본문내용 바로가기
MD의선택 무료배송 이벤트 사은품 소득공제

파이썬으로 웹 크롤러 만들기 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법

2판
라이언 미첼 지음 | 한선용 옮김 | 한빛미디어 | 2019년 03월 29일 출간
클로버 리뷰쓰기

이 책의 다른 상품 정보

  • 정가 : 25,000원
    판매가 : 22,500 [10%↓ 2,500원 할인]
  • 혜택 :
    [기본적립] 1250원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2,000원 추가적립 안내 [회원혜택] 회원 등급 별, 3만원 이상 구매 시 2~4% 추가적립 안내 [리뷰적립] 리뷰 작성 시 e교환권 최대 300원 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 개정정보 : 이 도서는 가장 최근에 출간된 개정판입니다. 2016년 12월 출간된 구판이 있습니다. 구판 보기
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(11일,목) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트

해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
  • 인프콘 2022 교보문고도 함께 합니다! 발표 세션 주제별 추천..
    2022.08.08 ~ 2022.08.31
  • 『클린코드』박재호 역자와 함께하는 개발자 북콘서트 사전신청!
    2022.07.22 ~ 2022.08.16
  • [교보단독 사은품] 개발자 매거진 <리드잇zine> ..
    2022.05.10 ~ 2022.08.12
  • 한빛미디어 IT도서 구매 시 메모리게임 카드pack 선택가능
    2022.01.10 ~ 2022.08.31
  • 기술스택 별 개발자 채용공고 비중 공개+추천도서!
    2021.12.24 ~ 2022.12.31
  • 새로 출간된 O'Reilly 번역서를 확인해보세요!
    2019.06.14 ~ 2022.12.31
  • 새로운 파이썬 책을 발견해보세요! 전체 목록 다운로드 제공!
    2016.08.11 ~ 2023.12.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2022.12.31
상품상세정보
ISBN 9791162241639(1162241632)
쪽수 356쪽
크기 184 * 236 * 16 mm /635g 판형알림
이 책의 원서/번역서 Web Scraping with Python / Mitchell, Ryan

책소개

이 책이 속한 분야

웹 어디서든 내가 원하는 데이터를 쏙쏙쏙
웹에 존재한다면 그것이 어떤 형태이든 데이터로 추출할 수 있다. 필요한 무기는 이 책과 파이썬뿐. BeautifulSoup, 셀레니움, 테서랙트 등 강력한 파이썬 라이브러리 사용법과 함께 API, 인증, 이미지 및 텍스트 인식, 로그인 처리 등 웹 크롤링의 기초부터 고급 기법까지 종합적으로 다루는 유일한 책. 실제 업무와 생활에 적용할 수 있는 예제가 가득하다. 2판은 예제를 추가 및 업데이트했고 모던 웹에서 거의 모든 종류의 데이터를 가져오는 방법을 포괄적으로 다룬다.

상세이미지

파이썬으로 웹 크롤러 만들기(2판) 도서 상세이미지

목차

Part I 스크레이퍼 제작

CHAPTER 1 첫 번째 웹 스크레이퍼
1.1 연결
1.2 BeautifulSoup 소개
__1.2.1 BeautifulSoup 설치
__1.2.2 BeautifulSoup 실행
__1.2.3 신뢰할 수 있는 연결과 예외 처리

CHAPTER 2 고급 HTML 분석
2.1 닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다
2.2 다시 BeautifulSoup
__2.2.1 find()와 findAll()
__2.2.2 다른 BeautifulSoup 객체
__2.2.3 트리 이동
2.3 정규 표현식
2.4 정규 표현식과 BeautifulSoup
2.5 속성에 접근하기
2.6 람다 표현식

CHAPTER 3 크롤링 시작하기
3.1 단일 도메인 내의 이동
3.2 전체 사이트 크롤링
__3.2.1 전체 사이트에서 데이터 수집
3.3 인터넷 크롤링

CHAPTER 4 웹 크롤링 모델
4.1 객체 계획 및 정의
4.2 다양한 웹사이트 레이아웃 다루기
4.3 크롤러 구성
__4.3.1 검색을 통한 사이트 크롤링
__4.3.2 링크를 통한 사이트 크롤링
__4.3.3 여러 페이지 유형 크롤링
4.4 웹 크롤러 모델에 대한 생각

CHAPTER 5 스크레이피
5.1 스크레이피 설치
__5.1.1 새 스파이더 초기화
5.2 간단한 스크레이퍼 작성하기
5.3 규칙에 의한 스파이더링
5.4 항목 만들기
5.5 항목 출력하기
5.6 파이프라인
5.7 스크레이피 로깅
5.8 더 읽을 거리

CHAPTER 6 데이터 저장
6.1 미디어 파일
6.2 데이터를 CSV로 저장
6.3 MySQL
__6.3.1 MySQL 설치
__6.3.2 기본 명령어
__6.3.3 파이썬과 통합
__6.3.4 데이터베이스 테크닉과 모범 사례
__6.3.5 여섯 다리와 MySQL
6.4 이메일

Part II 고급 스크레이핑

CHAPTER 7 문서 읽기
7.1 문서 인코딩
7.2 텍스트
__7.2.1 텍스트 인코딩과 인터넷
7.3 CSV
__7.3.1 CSV 파일 읽기
7.4 PDF
7.5 마이크로소프트 워드와 .docx

CHAPTER 8 지저분한 데이터 정리하기
8.1 코드에서 정리
8.2 사후 정리
__8.2.1 오픈리파인

CHAPTER 9 자연어 읽고 쓰기
9.1 데이터 요약
9.2 마르코프 모델
__9.2.1 위키백과의 여섯 다리: 결론
9.3 자연어 툴킷
__9.3.1 설치
__9.3.2 NLTK를 사용한 통계적 분석
__9.3.3 NLTK를 사용한 사전적 분석
9.4 추가 자료

CHAPTER 10 폼과 로그인 뚫기
10.1 파이썬 requests 라이브러리
10.2 기본적인 폼 전송
10.3 라디오 버튼, 체크박스, 기타 필드
10.4 파일과 이미지 전송
10.5 로그인과 쿠키 처리
__10.5.1 HTTP 기본 접근 인증
10.6 기타 폼 문제

CHAPTER 11 자바스크립트 스크레이핑
__11.1.1 널리 쓰이는 자바스크립트 라이브러리
11.2 Ajax와 DHTML
__11.2.1 셀레니움으로 파이썬에서 자바스크립트 실행
__11.2.2 그 밖의 셀레니움 웹드라이버
11.3 리다이렉트 처리
11.4 자바스크립트에 대한 마지막 노트

CHAPTER 12 API를 통한 크롤링
12.1 API에 대한 간단한 소개
__12.1.1 HTTP 메서드와 API
__12.1.2 API 응답에 대해
12.2 JSON 파싱
12.3 문서화되지 않은 API
__12.3.1 문서화되지 않은 API 찾기
__12.3.2 문서화되지 않은 API 문서화하기
__12.3.3 API 자동으로 찾고 문서화하기
12.4 API와 다른 데이터 소스의 결합
12.5 마치며

CHAPTER 13 이미지 처리와 텍스트 인식
13.1 라이브러리 개관
__13.1.1 필로
__13.1.2 테서랙트
__13.1.3 파이테서랙트
__13.1.4 넘파이
13.2 형식이 일정한 텍스트 처리
__13.2.1 이미지 자동 조정
__13.2.2 웹사이트 이미지에서 텍스트 스크레이핑하기
13.3 CAPTCHA 읽기와 테서랙트 훈련
__13.3.1 테서랙트 훈련
13.4 CAPTCHA 가져오기와 답 보내기

CHAPTER 14 스크레이핑 함정 피하기
14.1 스크레이핑의 윤리에 관해
14.2 사람처럼 보이기
__14.2.1 헤더를 수정하십시오
__14.2.2 쿠키 처리
__14.2.3 타이밍이 가장 중요합니다
14.3 널리 쓰이는 폼 보안 기능
__14.3.1 숨긴 필드 값
__14.3.2 허니팟 피하기
14.4 사람처럼 보이기 위한 체크리스트

CHAPTER 15 스크레이퍼로 웹사이트 테스트하기
15.1 테스트 입문
__15.1.1 단위 테스트란?
15.2 파이썬 unittest
__15.2.1 위키백과 테스트
15.3 셀레니움을 사용한 테스트
__15.3.1 사이트 조작
15.4 unittest vs 셀레니움

CHAPTER 16 병렬 웹 크롤링
16.1 프로세스 vs. 스레드
16.2 멀티스레드 크롤링
__16.2.1 경쟁 상태와 큐
__16.2.2 threading 모듈
16.3 멀티프로세스 크롤링
__16.3.1 멀티프로세스 크롤링
__16.3.2 프로세스 간 통신
16.4 멀티프로세스 크롤링의 다른 접근법

CHAPTER 17 원격 스크레이핑
17.1 원격 서버를 쓰는 이유
__17.1.1 IP 주소 차단 방지
__17.1.2 이동성과 확장성
17.2 토어
__17.2.1 파이삭스
17.3 원격 호스팅
__17.3.1 웹사이트 호스팅 계정에서 실행
__17.3.2 클라우드에서 실행
17.4 추가 자료

CHAPTER 18 웹 스크레이핑의 합법성과 윤리
18.1 상표? 저작권? 특허?
__18.1.1 저작권법
18.2 동산 침해
18.3 컴퓨터 사기와 악용에 관한 법률
18.4 robots.txt와 이용 약관
18.5 세 가지 웹 스크레이퍼 사례
__18.5.1 이베이 vs. 비더스 에지: 동산 침해
__18.5.2 미국 vs. 오언하이머: 컴퓨터 사기와 악용에 관한 법률
__18.5.3 필드 vs. 구글: 저작권과 robots.txt
18.6 미래를 향해

추천사

에릭 반위크

이 책에 나오는 예제와 도구를 이용해 여러 반복 업무를 자동화할 수 있었고, 그 시간을 더 흥미로운 일에 쓸 수 있었다. 결과를 바로 확인할 수 있고, 실제 업무나 생활에서 접하는 문제를 예제로 설명하여 빠르고 쉽게 읽을 수... 더보기

클리프 추(Carousell 데이터 분석가)

웹에서 데이터를 모으고 싶다는 생각을 한 번이라도 해봤다면 이 책을 읽어보길 권한다. 이미 크롤링을 해본 적이 있다면 더욱 도움이 될 것이다. 크롤링을 막는 페이지를 만난 적이 있다면? 이 책은 크롤러가 ‘인간’처럼 보이게 ... 더보기

출판사 서평

복잡 다양한 웹에서 우아하게 데이터를 수집하는 방법 A to Z
우리는 생활 속의 많은 부분이 인터넷에서 이루어지는 시대에 살고 있습니다. 그 어느 때보다 많은 데이터로 넘쳐나는 웹 세상에서 필요한 데이터를 가져와 분석하는 일의 중요성도 커졌습니다. 인터넷을 활보하며 데이터를 수집하는 프로그램을 웹 크롤러 혹은 웹 스크레이퍼라고 합니다. 웹 크롤러는 데이터 수집을 자동화하므로 비즈니스 의사 결정에 큰 도움이 되고, 웹사이트 스캐너로 활용할 수도 있어 보안 분야에서도 사용됩니다.
웹 크롤링은 인증 같은 웹 기술에 대한 이해는 물... 더보기

Klover 리뷰 (0)

북로그 리뷰 (7) 전체보기 쓰러가기

북로그 리뷰는 본인 인증 후 작성 가능합니다.
책이나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 내용은 비공개 처리 될 수 있습니다.
※ 북로그 리뷰 리워드 제공 2021. 4. 1 종료
  • Malgun Gothic", "맑은 고딕", dotum, 돋움, sans-serif; font-size: 16px;"> 최근에 파이썬에 대한 관심이 증가 하면서 여러 분야에서 사용이 되고 있다. 다양한 분야중에 웹 크롤러도 주목을 받고 있다. 나도 관심을 갖고는 있었지만 그저 막연하게만 생각하고 있었다. 어떤 방법들이 있는지, 무엇을 먼저 해야 하는지 모르고 있었다. 그런 의미에서 이 책은 웹 크롤러에 대해서 기초부터 고급까지 차근차근 알아 볼수 있는 책이다. 읽으면서 몇가지 필요한 것들에 대... 더보기
  • 파이썬으로 웹 크롤러 만들기 [2판] #오레일리 #한빛미디어 차근차근 보면서 따라하기 좋은 파이썬 웹크롤러 도서.  웹크롤러는 URL에서 페이지를 가져오고, 페이지를 검사해 다른 URL을 찾고, 다시 그 페이지를 가져오는 작업을 무한히 반복한다. 웹크롤러로 웹의 방대한 자료를 필터링 없이 수집하게 되면 그에 따른 문제가 많이 발생한다. 이 책에서는 원하는 범위에서 원하는 데이터만을 가져오고 DB로 만드는 방법을 친절하게 설명해준다.  파이썬의 기본을 설명해주기도 하지만 파이썬 기본서로... 더보기
  • 웹 크롤러 만들기 so**ater | 2020-09-30 | 추천: 0 | 5점 만점에 4점
    [본 리뷰는 출판사가 제공한 도서를 읽고 직접 작성하였습니다.] - 추천대상 : 초보 개발자 - 기초지식필요 : HTML, 파이썬, 웹개발 절차 - 난이도 : 초중급 - 이동성 : 356page 가지고 다니면서 진행할 수 있음 수많은 데이터가 생산되고 있지만, 내가 원하는 데이터를 직접 수집하기에는 쉽지 않다. 윤리성에 대해서 조금은 오해나 억측이 있긴하지만, 클로러를 통해서 내가 관심있는 분야에 데이터를 수집할 수 있다. 이 책은 간단하게 나만의 웹 크롤러를 개발하고, 데이터를 가공 수집하는 참고서적이다. ORE... 더보기
  •   구글 같은 기업은 어떻게 만들어지나요? "첫째, 수십억 달러를 모아 세계에서 가장 훌륭한 데이터 센터를 만들고 세계 곳곳에 배치합니다". 둘째. 웹 크롤러를 만듭니다 옮긴이의 말 이번에 나는 리뷰어다 8월에 신청한 책인 파이썬으로 웹 크롤러 만들기를 신청하였습니다.   이 책을 신청한 이유는 평소에 관심 있는 분야의 데이터 셋을 주기적으로 정재 해서 나만의 데이터로 쌓고자 하기 위해 선행지식으로  공부하기 위해 좋을 것 같아서 좋은 ... 더보기
  • Helvetica Neue", helvetica, AppleSDGothicNeo, arial, "malgun gothic", "맑은 고딕", sans-serif, Meiryo; vertical-align: baseline; color: #000000;">예전부터 오라일리 책을 읽고 싶었다. 그 이유는 귀여운 동물들이 표지에 그려져 있기 ˖문인데 이 책에는 사바나천산갑 이라는 동물이 그려져있는것같다. 아무튼 이번에 기회가 되서 파이썬으로 웹 크롤러만들기 2판 책을 읽게 되었다. Helvetica... 더보기

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매 후 문장수집 작성 시, 리워드를 제공합니다. 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①서양도서-판매정가의 12%, ②일본도서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함
바로가기
  • 우측 확장형 배너 2
  • 우측 확장형 배너 2
최근 본 상품