본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

파이썬을 활용한 크롤러 개발과 스크레이핑 입문 크롤러 설계와 개발부터 수집 데이터 분석과 운용까지

위키북스 데이터 사이언스 시리즈 37
카토 카츠야 , 요코야마 유우키 지음 | 윤인성 옮김 | 위키북스 | 2019년 07월 24일 출간
  • 정가 : 30,000원
    판매가 : 27,000 [10%↓ 3,000원 할인]
  • 통합포인트 :
    [기본적립] 1,500원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2천원 추가적립 안내 [회원혜택] 실버등급 이상, 3만원 이상 구매 시 2~4% 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘( 8일,수) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 개발자로 입문하기: 일단 이것부터 읽어보자!
    2019.05.31 ~ 2020.12.31
  • 위키북스의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2020.12.31
  • 파이썬 도서 전체 목록입니다. 새로운 책을 발견해보세요!
    2016.08.11 ~ 2020.12.31
상품상세정보
ISBN 9791158391645(1158391641)
쪽수 428쪽
크기 188 * 240 * 28 mm /950g 판형알림
이 책의 원서/번역서 PYTHONによるクロ-ラ-&スクレイピング入門 設計.開發から收集デ-タの解析.運用まで/加藤勝也

책소개

이 책이 속한 분야

웹 데이터 수집과 분석을 자동으로 처리해 보자!

인공지능, 머신러닝 기술의 발달과 더불어 최근 데이터 분석의 수요가 많아지고 있습니다. 데이터를 유의미한 자료로 활용하기 위해서는 다양한 데이터를 수집하는 ‘크롤링’과 수집한 데이터를 분석하는 ‘스크레이핑’ 기술이 필요합니다.

이 책은 데이터 수집과 분석 등의 업무를 맡은 프로그래머와 크롤러 개발을 맡은 엔지니어를 대상으로 크롤러 개발 방법부터 실제 크롤링과 스크레이핑하는 방법에 대해 상세하게 설명하는 입문서입니다.

이 책에서는 데이터 분석을 수행하는 현업에서 많이 사용되는 파이썬을 사용하여 크롤링, 스크레이핑의 기본과 다양한 응용 방법을 알려주고, 이를 운용할 때 직면할 수 있는 상황들에 대해 설명합니다. 나아가 실습 예제로 블로그 데이터 수집, 미세먼지 정보 수집 등을 다룹니다.

이 책의 총서

총서 자세히 보기

상세이미지

파이썬을 활용한 크롤러 개발과 스크레이핑 입문(위키북스 데이터 사이언스 시리즈 37) 도서 상세이미지

저자소개

저자 : 카토 카츠야

주식회사 Gunsy 소속, 대학교 졸업 후 들어간 모 가전 업체에서 카메라 등에 들어가는 소프트웨어를 개발하면서, 개인적으로 iPhone/Android가 태동하던 때부터 애플리케이션 개발을 시작했다. 어느 날 정신을 차리고 보니 임베디드 엔지니어에서 모바일 엔지니어로 일하게 되었다. 개인적으로 CrossBridge라는 이름으로 활동하고 있다

저자 : 요코야마 유우키

주식회사 Gunsy 소속, 이시카와 현의 카나자와 시에서 X-Ray 촬영기의 유지보수를 하는 일을 하다가, 친구의 권유로 도쿄로 상경해서 프로그래머가 되었다. 이후 검색 엔진 회사, 웹 미디어 회사를 거친 뒤 뉴스 애플리케이션을 개발하고 운용하는 현재 단계까지 오게 되었다. 좋아하는 것은 텀블러(Tumblr 서비스)와 덴키 그루브(일본의 음악 그룹)이다.

역자 : 윤인성

어쩌다가 책을 집필/번역하기 시작해서, 지금까지 계속해서 집필/번역하고 있습니다. 현재 직업 특성상 집에서 나갈 이유가 별로 없다는 것에 굉장히 만족하고 있습니다. 오전에는 커피, 오후에는 홍차를 마십니다. 요리, 피아노, 기타, 작곡, 그림, 스컬핑 등의 취미를 갖고 있습니다. 《파이썬을 이용한 머신러닝, 딥러닝 실전 앱 개발》(위키북스, 2019) 등을 번역했으며, 이 책의 소개말을 쓰는 시점을 기준으로 이 책은 47번째 도서입니다.

목차

[1부] 기본편

▣ 01장: 크롤링과 스크레이핑
01 크롤링과 스크레이핑
__크롤링과 스크레이핑
__크롤러가 주목받게 된 이유
__크롤링/스크레이핑할 때의 주의 사항
02 Wget으로 시작하는 크롤러 개발
__처음 만들어보는 크롤러
__macOS에 설치하기
__윈도우에 설치하기
__리눅스에 설치하기
__Wget의 사용 방법
__Wget을 크롤러로 사용해보기
__실제로 크롤링해보기
03 유닉스 명령어
__명령 라인 셸 사용하기
__스크레이핑과 관련된 유닉스 명령어
__정규 표현식
__유닉스 명령어로 스크레이핑하기

▣ 02장: 크롤러 설계하기
01 크롤러 설계 기본
__크롤러의 종류
__목적과 대상을 명확하게 하기
__URL 확인하기
__목적 데이터를 따로 제공하는지 확인하기
__웹 API
02 크롤러가 가지는 각각의 처리를 설계할 때의 주의 사항
__설계가 필요한 부분
__네트워크 요청
__파싱(분석)
__스크레이핑과 정규 표현식
__데이터 저장소의 구조와 선택
03 배치를 만들 때의 주의점
__배치란?
__설계

▣ 03장: 크롤러 및 스크레이핑 개발 환경 준비와 파이썬 기본
01 파이썬이 크롤링/스크레이핑에 적합한 이유
__파이썬을 사용하는 이유
02 크롤링/스크레이핑 전용 개발 환경 준비하기
__파이썬 3 설치하기
03 파이썬 기초 강의
__인터렉티브 셸과 스크립트 파일 실행하기
__코드 작성 방법
__숫자 자료형
__문자열
__자료 구조
__제어 구문
__함수와 클래스

▣ 04장: 스크레이핑 기본
01 라이브러리 설치하기
__pip으로 라이브러리 설치하기
02 웹 페이지 스크레이핑하기
__라이브러리 설치하기
__웹에 있는 리소스 추출하기
__XPath와 CSS 선택자
__HTML 소스 분석
03 RSS 스크레이핑하기
__라이브러리 설치하기
04 데이터를 데이터베이스에 저장하고 분석하기
__데이터를 데이터베이스에 저장해서 호출하기
__MySQL 설치하기
__데이터베이스와 사용자 만들기
__파이썬에서 MySQL에 접속하기
__분석한 결과 저장하기
__셸에서 스크립트 실행하기

[02부] 응용편

▣ 05장: 크롤러 설계/개발 (응용편)
01 크롤러를 발전시키기
__크롤링 개발에서 직면할 수 있는 문제와 해결 방법
02 print 함수로 로그 출력하기
__로그를 화면 또는 파일에 출력하는 방법
__로그 출력과 관련된 다양한 개선이 필요한 이유
03 logging 모듈로 로그를 출력하고 관리하기
__logging 모듈 사용하기
__딕셔너리 형식으로 설정 작성하기
04 로그 출력 라이브러리로 로그 관리하기
__서드파티 로그 출력 라이브러리 사용하기
05 병렬 처리하기
__병렬 처리하기
__표준 라이브러리 사용하기(한 대의 머신 병렬화하기)
__병렬로 내려받기
__작업 큐(여러 개의 머신을 사용해서 병렬 처리하기)
06 병렬 처리할 때의 주의점
__병렬 처리할 때 주의해야 하는 점
__상태 관리

▣ 06장: 스크레이핑 개발 (응용편)
01 크롤링한 데이터를 구조화 데이터로 변환하기
__수집한 데이터를 구조화하기
__구조화한 데이터를 저장하려면
__수집한 데이터를 사용하려면
02 XML로 변환하기
__데이터베이스를 만들고 테이블 등록하기
__XML 사용하기
__Orator 사용하기
__데이터를 분할해서 제공하기
03 JSON으로 변환하기
__JSON 사용하기
04 CSV로 변환하기
__CSV 사용하기
05 Scrapy를 사용해서 스크레이핑하기
__다양한 스크레이핑
__특정 아이템 수만 추출하고 싶을 때
__수집한 아이템을 JSON으로 변환하고 파일로 저장하기
__settings.py에 대해서
06 링크를 따라 돌며 크롤링하기
__링크를 따라 돌며 크롤링하려면
07 데이터베이스에 저장하기
__데이터베이스에 아이템 저장하기
08 디버그하기
__시행착오를 반복하며 스크레이핑하기
09 Scrapy로 프로그램 만들기
__스크립트 작성하기
10 크롬 개발자 도구 사용하기
__크롬(Chrome)

▣ 07장: 크롤러로 수집한 데이터 사용하기
01 피드 만들기
__피드란?
__RSS 형식
__네임 스페이스를 사용한 RSS 확장
__feedgen을 사용해서 RSS 만들기
02 플라스크(Flask)로 웹 API 만들기
__웹 API와 파이썬 웹 프레임워크
__플라스크를 사용한 웹 API 만들기
__데이터베이스 연결하기
__플라스크 플러그인: Flask-RESTful 사용하기
03 장고(Django)로 웹 API 만들기
__장고를 사용해서 웹 API 만들기
__film 테이블에서 아이템 추출하기
__JSON으로 결과 확인하기
04 태그 클라우드 만들기
__텍스트를 기반으로 태그 클라우드 만들기

▣ 08장: 크롤러 유지보수와 운용
01 정기적인 실행과 주기적인 실행
__정기적으로 크롤링하기
__cron 환경 변수
__특정 디렉터리를 기준으로 실행할 때
__주기적으로 실행하기
__백그라운드에서 실행 지속하기
02 다중 실행 방지하기
__동일 처리 다중 실행 대책
03 관리 화면 사용하기
__크롤링 대상을 데이터베이스로 관
__peewee와 flask-admin 사용하기
__장고 어드민 사용하기
04 통지 기능 추가하기
__통지 기능을 추가하려면
__메일로 통지 보내기
__파이썬에서 메일 보내기
__슬랙(Slack)에 통지 보내기
05 단위 테스트 만들기
__단위 테스트란?
__테스트 대상 코드와 테스트 코드 준비하기
__테스트 실행과 실행 결과

▣ 09장: 목적에 맞는 크롤러 & 스크레이핑 개발 방법
01 자바스크립트로 렌더링 되는 페이지를 스크레이핑하기
__자바스크립트로 렌더링되는 페이지를 스크레이핑하려면?
__파이썬 가상 환경과 venv
__크롬 헤드리스 모드의 명령 라인 실행
02 공개 데이터 사용하기
__공개 데이터란?
03 텀블러(Tumblr) 대시보드 크롤링하고 검색하기
__텀블러(Tumblr)란?
__글 검색 엔진 Whoosh
__본문 검색
__인덱스를 만드는 방법
__N그램 사용하기

▣ [부록] 유용한 라이브러리
01 프로세스 관리 도구 Supervisor
__Supervisor
02 파이참(PyCharm) 사용하기
__파이참 설치하기
__프로젝트 만들기
__편리한 기능
__파이참 설정을 원하는 대로 변경하기
03 NumPy와 SciPy 사용하기
__NumPy란
__SciPy
04 베이그런트로 윈도우에 우분투 가상 환경 설치하기
__베이그런트 설치하기
__베이그런트로 우분투 가상 환경 설치하기
__베이그런트로 우분투 가상 환경 실행하기
__파일 공유하기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 분야의 베스트

  • 찰스 펫졸드
    22,500원
  • 김정준
    29,700원
  • 윤인성
    16,200원
  • 조블리(조애리)
    20,700원
  • 길벗R&D
    12,600원
더보기+

이 분야의 신간

더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품