본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

Pandas로 하는 데이터 과학 파이썬 통계 분석 라이브러리

2판
마이클 헤이트 지음 | 이태상 옮김 | 에이콘출판 | 2018년 09월 27일 출간
  • 정가 : 35,000원
    판매가 : 31,500 [10%↓ 3,500원 할인]
  • 통합포인트 :
    [기본적립] 1,750원 적립 [5% 적립] 안내 [추가적립] 5만원 이상 구매 시 2천원 추가적립 [회원혜택] 우수회원 5만원 이상 구매 시 2~3% 추가적립
  • 추가혜택 : 카드/포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    당일배송 지금 주문하면 오늘(19일,월) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내
장바구니 담기 바로구매

책 그리고 꽃 서비스
책 그리고 꽃 | 책과 꽃을 함께 선물하세요 자세히보기

닫기

바로드림 주문 선물하기 보관함 담기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • #리드잇 페이스북 페이지 팔로우 하시고, 신간소식 빠르게 받아보..
    2017.06.22 ~ 2025.07.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2020.12.31
상품상세정보
ISBN 9791161752136(1161752137)
쪽수 472쪽
크기 190 * 236 * 23 mm /880g 판형알림
이 책의 원서/번역서 Learning pandas - Second Edition: High-performance data manipulation and analysis in Python/Michael Heydt

책소개

이 책이 속한 분야

파이썬 기반의 통계 패키지인 Pandas는 고성능의 데이터 구조를 제공함으로써 데이터 탐색과 분석을 매우 용이하게 해주는, 데이터 분석가의 효율적인 도구다. 이 책은 Pandas 라이브러리의 완전한 기능을 배움으로써 효율적인 데이터 조작과 분석의 길로 안내한다. 데이터 분석과 반복 프로세스에 대한 기초부터 데이터 모델링, 원격 데이터 접근, 수치 해석과 통계 분석, 데이터 인덱싱과 집계 분석, 그리고 통계 데이터의 시각화와 금융 분석까지 수행하는 과정을 통해 데이터 과학의 핵심 단계를 설명한다.

저자소개

저자 : 마이클 헤이트

저자 마이클 헤이트(Michael Heydt)는 십수 년의 전문 소프트웨어 개발과 금융 및 상품 거래 경험을 갖춘 기술자이자 사업가이며 교육자다. 오랫동안 월스트리트에서 행위자 기반의 병행 및 분산 시스템이자 고성능과 고가용성을 갖춘 금융 거래 시스템 개발 업무를 했다. 또한 금융 및 상품 거래를 위한 클라우드 방식의 마이크로서비스 기반 소프트웨어 솔루션 제작을 주로 하는 마이크로 트레이딩 서비스(Micro Trading Services)라는 기업의 창업자다. 드렉셀대학교에서 수학 및 컴퓨터 과학 석사 학위를 취득하고 펜실베니아대학교 와튼 스쿨에서 기술 경영 석사 학위를 취득했다.

역자 : 이태상

역자 이태상은 자바와 웹 전문가로서 교육과 컨설팅을 주로 했으며, 오랜 기간 전자 금융 업무를 담당했다. 현재 한 금융기관의 재무회계 시스템 구축 프로젝트에 참여하고 있다. 에이콘출판사의 『톰캣 최종분석』(2005), 『리액트 네이티브 앱 제작 원론』(2018) 등 다수의 IT 서적을 번역했다.

작가의 말

Pandas는 현실 세계의 데이터 분석을 위한 인기 있는 파이썬(Python) 패키지다. Pandas는 효율적이고 빠른 고성능의 데이터 구조를 제공함으로써 데이터 탐색과 분석을 매우 용이하게 해준다. 이 책은 Pandas 라이브러리의 완전한 기능을 배울 수 있게 도와 효율적인 데이터 조작과 분석의 길로 안내할 것이다.
- 저자 마이클 헤이트

“데이터를 고문하라. 그러면 모든 걸 자백할 것이다(Toture the data, and it will confess to anything).” ㅡ 로널드 코스(Ronald Coase)
1991년 노벨 경제학상을 받은 영국의 경제학자 로널드 코스가 무려 1981년에 했던 말입니다. 35년도 더 지난 지금의 우리는 그야말로 데이터 고문(Data Torturing)의 시대에 살고 있습니다. 데이터에겐 미안하지만(?), 그래야만 우리에게 진실을 죄다 털어놓으니까 말입니다. 여기서 재미있는 점은 그 고문자가 ‘우리 모두’라는 매우 중요한 사실입니다.
로널드 코스를 인용하느라 ‘고문’이라는 단어를 썼지만, 실은 ‘과학’입니다. 지나치게 간단히 말하자면 데이터 과학(Data science)이란 무차별로 축적된 데이터로부터 ‘유의미한 정보’를 선별하고 분석해 이를 ‘미래에 대한 통찰’로 빚어내는 포괄적인 전 과정을 말하며, 따라서 이를 수행하는 사람은 당연히 IT 종사자에게만 국한돼있지 않습니다. 그러므로 앞의 표현을 바꿔보자면 우리는 모두 데이터 과학자입니다. 예컨대 우리는 선거 후보자의 치적이나 전과기록 등을 토대로 유권자 입장에서 가치 있는 정보만을 추리고 분석해 미래의 정치 대리인으로 임명할지 여부를 놓고 투표를 하니까요. 이렇듯 우리는 이미 데이터 과학자로서의 일상을 살고 있지만 현대의 IT 기술, 통계학, 경제학, 경영학, 금융공학 등 여러 지식체계를 접목해 데이터 조작과 분석을 과학적으로 수행할 수 있는 좀 더 전문적인 능력이 필요한 상황에 처했음을 인정하게 됩니다. 이 책을 선택한 저와 여러분 또한 그럴 것입니다. 이에 큰 도움이 될 Pandas는 파이썬 프로그래밍 언어를 기반으로 하는 통계 분석 라이브러리이며, 이 책은 Pandas의 사용 방법을 아주 쉽게 차근차근 설명합니다. 흔히 사용되는 R을 대신해 파이썬을 통계 도구로 사용할 수 있습니다. 이는 이미 파이썬을 아는 사람이라면 R을 사용하지 않아도 자신의 파이썬 경험을 데이터 과학 분야에 그대로 활용할 수 있다는 의미입니다. 그런데 더더욱 놀라운 것은 파이썬 경험이 없더라도 Pandas를 사용하는 데 아무 무리가 없다는 점입니다. 바로 이 책이 그걸 증명합니다.
- 역자 이태상

목차

1장. pandas와 데이터 분석
__pandas 소개
__데이터 조작, 분석, 과학과 pandas
____데이터 조작
____데이터 분석
____데이터 과학
____pandas의 적정 영역
__데이터 분석 프로세스
____프로세스
__이 책에서 각 단계의 관련 위치
__pandas 여행을 위한 데이터와 분석의 개념
____데이터 유형
____변수
____시계열 데이터
____분석과 통계의 기초 개념
__기타 유용한 파이썬 라이브러리
____수학과 과학: NumPy와 SciPy
____통계 분석: StatsModels
____머신 러닝: scikit-learn
____스토캐스틱 베이지안 모델링: PyMC
____데이터 시각화: matplotlib과 seaborn
__정리

2장. pandas의 설치와 가동
__아나콘다 설치
__아이파이썬과 주피터 노트북
____아이파이썬
____주피터 노트북
__pandas Series와 데이터 프레임 소개
____pandas의 임포트
____pandas Series
____pandas DataFrame
____데이터 프레임으로 파일 데이터 로딩
__시각화
__정리

3장. Series로 단변량 데이터 표현
__pandas 설정
__Series 생성
____파이썬 리스트와 딕셔너리를 사용한 생성
____NumPy 함수를 사용한 생성
____스칼라 값을 사용한 생성
__.index와 .values 속성
__Series의 크기와 형태
__생성 시 인덱스 지정
__head, tail, take
__레이블과 포지션으로 값 가져오기
____[] 연산자와 .ix[] 속성을 사용하는 레이블 검색
____.iloc[]을 사용하는 명시적 포지션 검색
____.loc[]을 사용하는 명시적 레이블 검색
__서브셋으로 Series 슬라이싱
__인덱스 레이블을 통한 정렬
__불리언 선택
__리인덱싱
__시리즈 즉석 변경
__정리

4장. DataFrame으로 단변량 데이터 표현
__pandas 설정
__데이터 프레임 객체 생성
____NumPy 함수로 데이터 프레임 만들기
____파이썬 딕셔너리와 pandas Series로 DataFrame 만들기
____CSV로 DataFrame 만들기
__DataFrame 안의 데이터 접근
____DataFrame의 칼럼 선택
____데이터 프레임의 로우 선택
____.at[]이나 .iat[]을 사용해 레이블이나 위치로 스칼라 검색
____[] 연산자를 사용한 슬라이싱
__불리언 선택을 통한 로우 선택
__로우와 칼럼의 동시 선택
__정리

5장. DataFrame 구조 다루기
__pandas 설정
__칼럼명 변경
__[]와 .insert()를 사용한 칼럼 추가
__확장을 통한 칼럼 추가
__접합을 통한 칼럼 추가
__칼럼 재배열
__칼럼의 콘텐츠 교체
__칼럼 삭제
__새 로우 추가
__로우 접합
__확장을 통한 로우 추가 및 교체
__을 .drop() 사용한 로우 삭제
__불리언 선택을 통한 로우 삭제
__슬라이싱을 통한 로우 삭제
__정리

6장. 데이터 인덱싱
__pandas 설정
__인덱스의 중요성
__인덱스 유형
____기본 유형: Index
____정수 유형: Int64Index와 RangeIndex
____부동소수점 유형: Float64Index
____이산 간격 유형: IntervalIndex
____범주형: CategoricalIndex
____날짜 및 시간 유형: DatetimeIndex
____기간 유형: PeriodIndex
__인덱스로 작업
____시리즈와 데이터 프레임에서의 인덱스 생성과 사용
____인덱스로 값 선택
____인덱스 사이의 데이터 이동
____pandas 객체의 리인덱싱
__계층형 인덱스
__정리

7장. 범주형 데이터
__pandas 설정
__Categorical 생성
__범주 이름 변경
__새 범주 추가
__범주 삭제
__미사용 범주 삭제
__범주 설정
__Categorical의 기술 통계 정보
__성적 데이터 가공
__정리


8장. 수치 해석과 통계 기법
__pandas 설정
__수치 계산법
____DataFrame과 Series의 산술 연산
____값의 개수 세기
____고윳값과 그 개수
____최솟값과 최댓값 찾기
____n개 최솟값과 n개 최댓값 찾기
____누적 값 계산
__pandas 객체의 통계 처리
____약식 기술 통계
____중심 경향성 측정: 평균, 중위수, 최빈수
____분산과 표준 편차 계산
____공분산과 상관관계
____이산화와 분위수
____값 순위 계산
____각 표본의 변동률 계산
____롤링 윈도우 작업
____무작위 표집
__정리

9장. 데이터 접근
__pandas 설정
__CSV, 텍스트, 테이블 형식의 데이터
____CSV 데이터셋 예제 확인
____CSV를 데이터 프레임으로 로딩
____CSV 로딩 시 인덱스 칼럼 지정
____데이터 타입의 추론과 지정
____칼럼명 지정
____특정 칼럼의 로딩
____데이터 프레임을 CSV 파일로 저장
____필드 구분 데이터로 작업
____필드 구분 데이터의 다양한 형식 다루기
__엑셀 데이터의 읽기와 쓰기
__JSON 파일의 읽기와 쓰기
__HTML 데이터 읽기
__HDF5 파일의 읽기와 쓰기
__웹을 통한 CSV 데이터 접근
__데이터베이스의 읽기와 쓰기
__원격 데이터 서비스로부터 데이터 읽기
____야후!와 구글로부터 주식 데이터 읽기
____구글 파이낸스의 옵션 데이터 가져오기
____세인트루이스 연방준비은행의 FRED 데이터 가져오기
____케네스 프렌치 데이터에 접근
____세계은행의 데이터 읽기
__정리

10장. 데이터 정돈
__pandas 설정
__데이터 정돈이란?
__결측 데이터 다루기
____NaN 값 찾기
____결측 데이터의 판별과 삭제
____수학 연산에서의 NaN 처리 방식
____결측 데이터 보강
____결측 값 채우기
____인덱스 레이블을 사용한 채우기
____보간법을 사용한 결측 값 채우기
__중복 데이터 다루기
__데이터 변형
____데이터를 다른 인덱스에 매핑
____데이터 대체
____데이터 변형을 위한 함수 적용
__정리

11장. 데이터의 조합, 연관, 재형성
-- pandas 설정
-- 복수 객체의 데이터 접합
-- 접합의 기본 의미
-- 정렬 기준 축의 전환
-- 조인 유형 지정
-- 데이터 덧붙이기
-- 인덱스 레이블의 무시

-- 데이터 병합과 조인
-- 여러 pandas 객체로부터의 데이터 병합
-- 병합의 조인 유형 지정

-- 데이터 피버팅

-- 스태킹과 언스태킹
-- 비계층형 인덱스에서의 스태킹
-- 계층형 인덱스에서의 언스태킹
-- 데이터 멜팅

-- 스택 데이터의 성능상 이점

--정리

12장 데이터 집계
-- pandas 설정

-- 분할-적용-조합(SAC) 패턴

-- 예제 데이터 준비

-- 데이터 분할
-- 단일 칼럼의 그룹화
-- 그룹화된 결과 접근
-- 복수 칼럼의 그룹화
-- 인덱스 레벨을 이용한 그룹화

-- 집계 함수 적용, 변형, 필터링
-- 집계 함수의 적용

-- 데이터 그룹의 변형
-- 데이터 변형의 일반적인 과정
-- 그룹의 평균으로 결측 값 채우기
-- 정규 표준 점수의 계산
--그룹 필터링

--정리

13장 시계열 모델링
-- Pandas 설정

-- 날짜, 시간, 인터벌의 표현
-- datetime, date, time 객체
-- Timestamp로 특정 시점 나타내기
-- Timedelta로 인터벌 표현

-- 시계열 데이터
-- Datetimelndex를 사용한 인덱싱
-- 특정 빈도의 시계열 생성

-- 오프셋을 사용한 날짜 계산
-- 시간 오프셋으로 인터벌 표현
-- 고정 오프셋

-- Period로 기간 표현
-- Period로 시간 인터벌 모델링
-- PeriodIndex를 사용한 인덱싱

-- 캘린더를 사용한 휴일 다루기

-- 시간대를 사용한 타임스탬프 정규화

-- 시계열 데이터 조작
-- 시프팅과 래깅
-- 시계열 데이터의 빈도 변환
-- 업샘플링과 다운샘플링

-- 시계열 데이터의 롤링 윈도우

-- 정리

14장 시각화
-- pandas 설정

-- 플로팅의 기본

-- 시계열 차트 만들기
-- 시계열 차트의 스타일링과 꾸미기
-- 제목의 추가와 축 레이블 변경
-- 범례의 내용과 위치 지정
-- 라인 색상, 스타일, 두께, 마커 지정
-- 틱 마크 위치와 틱 레이블 지정
-- 틱의 날짜 레이블 포맷팅

-- 통계 분석에서 흔히 사용되는 차트
-- 막대그래프를 통한 상대 비교
-- 히스토그램으로 데이터 분포 표현
-- 박스-수염 그래프로 범주형 데이터의 분포 표현
-- 영역 그래프로 누계 표현
-- 산점도 행렬로 다중 변수의 상관관계 나타내기
-- 히트맵으로 다중 변수의 관계 강도 나타내기

-- 수작업으로 한 번에 여러 차트 그리기

-- 정리

15장 과거 주가 분석
-- pandas 설정
-- 주식 데이터 취득과 조직화
-- 시계열 주가 플로팅
-- 거래량 데이터 플로팅
-- 종가의 단순 일별 변동률
-- 단순 일별 누적 수익률
-- 일별에서 월별로 수익률 재표집
-- 수익률 분포의 분석
-- 이동 평균 계산
-- 주식의 일별 수익률 비교
-- 일별 주가 변동률에 기초한 상관관계
-- 주가 변동성 계산
-- 위험 대비 수익률 나타내기
-- 정리

찾아보기

출판사 서평

★ 이 책에서 다루는 내용 ★

■ 데이터 분석가와 과학자가 데이터를 수집하고 파악하는 방식의 이해
■ 데이터 분석의 처음부터 끝까지 지원하는 Pandas의 활용
■ 시리즈와 데이터 프레임을 사용한 단변량과 다변량 데이터 표현
■ 데이터의 분할과 분리, 여러 출처의 데이터 조합, 그룹화, 집계 방법
■ 파일, 데이터베이스, 웹 서비스 등의 외부 데이터 접근
■ 시계열 데이터의 표현, 조작, 다양한 의미 파악
■ 통계 정보의 시각화
■ Pandas를 이용한 다양한 금융 데이터 표현과 분석


★ 이 책의 대상 독... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서번역서

안내

이 분야의 베스트

  • 박응용
    16,920원
  • 가사키 나가토
    25,200원
  • SDN/NFV포럼
    31,500원
  • 다니엘 드레셔
    13,500원
  • 길벗R&D
    18,900원
더보기+

이 분야의 신간

  • 프랑소와 숄레
    29,700원
  • 길벗알앤디(강윤석, 김용갑,...
    31,500원
  • 길벗알앤디
    15,300원
  • 이안 굿펠로
    37,800원
  • 조슈아 블로크
    32,400원
더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품