본문내용 바로가기
무료배송 이벤트 소득공제

파이썬을 활용한 데이터 길들이기 데이터 전처리 효율화 전략

프로그래밍인사이트
재클린 카질 , 캐서린 자멀 지음 | 이정윤 , 이제원 , 임훤 옮김 | 인사이트 | 2017년 08월 21일 출간
클로버 리뷰쓰기
  • 정가 : 33,000원
    판매가 : 29,700 [10%↓ 3,300원 할인]
  • 통합포인트 :
    [기본적립] 1,650원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2천원 추가적립 안내 [회원혜택] 실버등급 이상, 3만원 이상 구매 시 2~4% 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(21일,목) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 새로 출간된 O'Reilly 번역서를 확인해보세요!
    2019.06.14 ~ 2021.12.31
  • 책을 통해 성장해나가는 개발자를 응원합니다.
    2017.06.22 ~ 2025.07.31
  • 새로운 파이썬 책을 발견해보세요! 전체 목록 다운로드 제공!
    2016.08.11 ~ 2021.12.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2021.12.31
상품상세정보
ISBN 9788966264063(8966264069)
쪽수 536쪽
크기 189 * 241 * 27 mm /1029g 판형알림
이 책의 원서/번역서 Data Wrangling with Python/Jacqueline Kazil, Katharine Jarmul

책소개

이 책이 속한 분야

미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매번 거쳐야 하는 이 수작업을 더 효율적으로, 더 똑똑하게 할 수는 없을까? 이에 대한 답을 『파이썬을 활용한 데이터 길들이기』에는 데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다. 이 책은 일반적인 데이터 분석 프로젝트의 흐름을 따라 단계별로 구성되어 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 예전에는 너무 지저분하거나 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있을 것이다. 매번 되풀이되는 데이터 분석 초기 단계를 좀 더 효율적으로 작업하고 싶었던 독자라면 이 책을 통해 데이터 분석 능력을 한 단계 업그레이드할 수 있을 것이다.

목차

1장 파이썬 소개
__왜 파이썬인가?
__파이썬 시작하기
____파이썬 버전 선택하기
____컴퓨터에 파이썬 설치하기
____파이썬 실행 테스트하기
____pip 설치하기
____코드 에디터 설치하기
____선택사항: IPython 설치하기
__요약

2장 파이썬 기초
__기본적인 데이터 유형
____문자열
____정수와 실수
__데이터 컨테이너
____변수
____리스트
____딕셔너리
__각 데이터 유형으로 무엇을 할 수 있나?
____문자열 메서드: 문자열이 할 수 있는 것들
____수치형(numerical) 메서드: 숫자가 할 수 있는 것들
____리스트 메서드: 리스트가 할 수 있는 것들
____딕셔너리 메서드: 딕셔너리가 할 수 있는 것들
__유용한 도구: type, dir 그리고 help
____type
____dir
____help
__모두 종합하기
__이 모든 것이 무엇을 의미하는가?
__요약

3장 기계가 읽을 수 있는 데이터
__CSV 데이터
____CSV 데이터 불러오기
____파일에 코드 저장하기; 명령 프롬프트에서 실행하기
__JSON 데이터
____JSON 데이터 불러오기
__XML 데이터
____XML 데이터 불러오기
__요약

4장 엑셀 파일 다루기
__파이썬 패키지 설치하기
__엑셀 파일 파싱하기
__파싱 시작하기
__요약

5장 파이썬에서의 PDF와 문제 해결
__PDF 사용을 자제하라!
__PDF 파싱에 대한 프로그램적인 접근
____slate를 사용하여 열고 읽기
____PDF를 텍스트로 변환하기
__pdfminer를 사용해 PDF 파싱하기
__문제 해결 방법 배우기
____예제: 표 추출 사용하기, 다른 라이브러리 사용하기
____예제: 수동으로 데이터 클리닝하기
____예제: 다른 도구 사용하기
__흔치 않은 파일 유형
__요약

6장 데이터 수집 및 저장하기
__모든 데이터가 평등하게 창조되지는 않았다
__사실 확인하기
__가독성, 깔끔함 그리고 데이터의 지속성
__데이터를 어디에서 구할 수 있을까
____전화 걸기
____미 정부 데이터
____전 세계 정부 및 도시 오픈 데이터
____조직 및 비정부조직(NGO) 데이터
____교육 및 대학 데이터
____의료 및 과학 데이터
____크라우드소싱 데이터 및 API
__사례 연구: 데이터 예시 조사
____에볼라 사태
____기차 안전
____축구 선수 연봉
____아동 노동
__데이터 저장하기: 언제, 왜, 어떻게?
__데이터베이스: 간단한 소개
____관계형 데이터베이스: MySQL과 PostgreSQL
____비관계형 데이터베이스: NoSQL
____파이썬에서 로컬 데이터베이스 설정하기
__언제 간단한 파일을 사용하나
____클라우드 저장과 파이썬
____로컬 저장과 파이썬
__대안적인 데이터 저장 방법
__요약

7장 데이터 클리닝하기: 조사, 매칭 그리고 서식화
__왜 데이터를 클리닝하는가?
__데이터 클리닝 기초
____데이터 클리닝을 위한 값 찾기
____데이터 서식화하기
____이상치와 불량 데이터 찾기
____중복 기록 찾기
____퍼지 매칭
____정규식 매칭
____중복 기록 처리하기
__요약

8장 데이터 클리닝하기: 표준화와 스크립트
__데이터 정규화 및 표준화
__데이터 저장하기
__프로젝트에 적절한 데이터 클리닝 방식 결정하기
__클리닝 스크립트 만들기
__새 데이터 테스트하기
__요약

9장 데이터 탐색과 분석
__데이터 탐색하기
____데이터 불러오기
____표 함수 탐색하기
____다수의 데이터세트 결합하기
____상관관계 판별하기
____이상치 판별하기
____그룹화하기
____추가 탐색하기
__데이터 분석하기
____데이터를 분리하고 집중하기
____데이터가 무엇을 말하고 있나?
____결론 도출하기
____결론 문서화 하기
__요약

10장 데이터 표현하기
__스토리텔링의 함정을 방지하기
____스토리를 어떻게 전달할 것인가?
____청중을 알라
__데이터 시각화하기
____차트
____시간 관련 데이터
____지도
____인터랙티브
____단어
____이미지, 비디오, 일러스트
__프레젠테이션 도구
__데이터 게재하기
____가능한 사이트 사용하기
____오픈소스 플랫폼: 새로운 사이트 만들기
____Jupyter(기존 IPython Notebooks)
__요약

11장 웹 스크래핑 : 웹에서 데이터를 획득하고 저장하기
__스크래핑 대상과 방법
__웹 페이지 분석하기
____요소 검사 : 마크업 구조
____Network/Timeline 탭 : 페이지 로드 현황보기
____콘솔 탭 : 자바스크립트와 상호작용하기
____페이지 심층분석
__페이지 가져오기 : 페이지 요청 방법
__뷰티풀수프를 사용하여 웹페이지 읽어 들이기
__LXML로 웹페이지 읽어들이기
____XPath 사례
__요약

12장 고급 웹 스크래핑 : 스크린 스크래퍼와 스파이더
__브라우저 기반 파싱
____셀레니움(Selenium)으로 하는 스크린 리딩
____Ghost.Py로 스크린 리딩하기
__웹 스파이더링
____Scrapy를 이용한 스파이더 구축
____Scrapy로 웹사이트 전체를 크롤링하기
__네트워크 : 인터넷의 작동 원리와 스크립트가 망가지는 이유
__변화하는 인터넷(또는 당신의 스크립트가 망가지는 이유)
__몇 가지 주의 사항
__요약

13장 API
__API에서 제공하는 기능들
____REST API vs. 스트리밍 API
____요청 제한
____데이터 볼륨 계층
____API 키와 토큰
__REST API로부터 간단한 데이터 받아 오기
__트위터 REST API를 사용한 고급 데이터 수집
__트위터 스트리밍 API를 통한 고급 데이터 수집
__요약

14장 자동화와 규모 확장
__왜 자동화를 해야 할까?
__자동화 단계
__무엇이 잘못될 수 있는가?
__자동화 수행 위치
__자동화를 위한 특별한 도구들
____로컬 파일과 인자값(argv), 그리고 설정 파일 사용하기
____데이터 처리를 위해 클라우드 사용하기
____병렬 프로세싱 사용하기
____분산 프로세싱 사용하기
__단순 자동화
____크론잡(CronJob)
____웹 인터페이스
____주피터 노트북(Jupyter Notebooks)
__대규모 자동화
____셀러리(Celery) : 큐 기반 자동화
____Ansible을 이용한 운영 자동화
__자동화 모니터링하기
____파이썬으로 로깅(logging)하기
____자동화된 메시지 보내기
____파일 업로드 및 기타 보고 방법
____로깅 및 모니터링 서비스
__완벽한 시스템은 없다
__요약

15장 결론
__데이터 랭글러의 의무
__데이터 랭글링을 넘어
____더 나은 데이터 분석가가 되기
____더 나은 개발자가 되기
____더 나은 시각적 스토리텔러가 되기
____더 나은 시스템 아키텍트가 되기
__이젠 무엇을 할까?

부록 A 프로그래밍 언어 비교
부록 B 초보자를 위한 파이썬 참고자료
부록 C 커맨드라인 배우기
부록 D 파이썬 고급 설정
부록 E 파이썬 주의사항
부록 F IPython 도움말
부록 G 아마존 웹 서비스 이용하기

Klover 리뷰 (0)

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면
결제 90일 이내 300원, 발송 후 5일 이내 400원, 이 상품의 첫 리뷰 500원의 포인트를 드립니다.

포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
북로그 리뷰는 본인인증을 거친 회원만 작성 가능합니다.
(※ 외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외) 안내
  • 해당도서의 리뷰가 없습니다.

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①서양도서-판매정가의 12%, ②일본도서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서/번역서

안내

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품