파이썬으로 풀어보는 회귀분석
도서+교보Only(교보배송)을 함께 15,000원 이상 구매 시 무료배송
15,000원 미만 시 2,500원 배송비 부과
20,000원 미만 시 2,500원 배송비 부과
15,000원 미만 시 2,500원 배송비 부과
1Box 기준 : 도서 10권
해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.
패키지
북카드
키워드 Pick
키워드 Pick 안내
관심 키워드를 주제로 다른 연관 도서를 다양하게 찾아 볼 수 있는 서비스로, 클릭 시 관심 키워드를 주제로 한 다양한 책으로 이동할 수 있습니다.
키워드는 최근 많이 찾는 순으로 정렬됩니다.
작가정보
저자(글) 루카 마싸론
데이터 과학자이며 마케팅 연구 책임자로, 다변량 통계 분석 및 머신 러닝을 전문으로 하며, 10년 이상의 경험을 바탕으로 추론, 통계, 데이터 마이닝 및 알고리즘을 적용해 실생활 문제를 해결하고 이해관계자의 가치를 창출하는 고객 통찰력을 제공해왔다. 이탈리아에서 웹 이용자 분석의 선구자가 된 이후, 캐글러(Kaggler)의 상위 10위를 달성하는 데 이르기까지 데이터와 분석에 관한 모든 것에 항상 열성적이었으며 전문가와 비전문가 모두에게 데이터 기반 지식 검색의 잠재력을 일깨워줬다. 불필요한 정교함보다는 단순함을 선호한다. 데이터 과학에서 본질적인 것만 수행해도 많은 것을 성취할 수 있다고 믿는다.
저자(글) 알베르토 보스체티
신호 처리와 통계 분야의 전문 지식을 갖춘 데이터 과학자로, 통신공학 박사 학위를 가지고 있다. 현재 런던에서 거주하며 일하고 있다. 자연어 처리 및 머신 러닝부터 분산 처리에 이르기까지 수많은 프로젝트에서 다양한 일상 문제에 직면하고 있다. 자신의 일에 매우 열정적이며 항상 데이터 과학 기술의 개발, 모임, 회의 및 기타 이벤트에 대해 최신 정보를 얻으려고 노력한다.
번역 윤정미
가톨릭대학교에서 수학 전공으로 학사를, 이화여대대학원에서 컴퓨터 전공으로 석사를 마쳤다. 이후 The Graduate Center of the City University of New York에서 컴퓨터공학 박사 학위를 받았다. 대학에서 데이터베이스와 시뮬레이션 등을 강의했고, 1990년부터 현재까지 유한대학교 IT소프트웨어공학과 교수로 재직 중이다.
「병렬 컴퓨터상에서 GPSS 구현을 위한 알고리즘」, 「통계 기반 교통 시뮬레이션의 애니메이션화」 등 다수의 논문을 썼고, 『쉽게 풀어 쓴 비주얼 베이직』(생능출판사, 2008), 『예제 따라가며 쉽게 배우는 오라클』(기한재, 2015) 등의 저서가 있다. 지난 몇 년 동안 교내 파이썬 동아리를 지도하며 파이썬 프로그래밍과 이의 실무 응용 분야에 많은 관심을 가져왔다.
작가의 말
선형모델은 학자와 실무자에게 잘 알려져 있으며 오랫동안 연구돼 왔다. 그리고 선형모델은 통계, 경제 및 다른 정량적인 분야 연구에 관한 지식 체계의 중요한 요소였으며, 데이터 과학으로 채택돼 수많은 신병 훈련소의 강의 계획서에 포함되고 여러 실용 서적의 초반부에 배치됐다.
결과적으로 선형회귀, 로지스틱회귀(분류 변형) 그리고 더 복잡한 문제를 해결하기 위해 원래의 선형회귀 패러다임이 공식에 적용된 다양한 유형의 일반화된 선형모델에 관한 모노그래프, 책, 논문 등을 광범위하게 이용할 수 있다.
그러나 이와 같이 풍부한 쓰임새에도, 개발자 또는 데이터 과학자로서 데이터를 통해 학습해야 하는 애플리케이션이나 API를 신속하게 생성해야 할 때 선형모델의 구현 속도와 용이성을 실제로 설명하는 책은 보지 못했다.
물론 선형모델의 한계를 잘 알고 있다(불행히도 약간의 단점이 있다). 또한 어떤 데이터 과학 문제에 대해서도 고정된 해결책은 없다는 것을 잘 알고 있다. 그러나 현장에서의 경험에 비춰 볼 때 다음과 같은 선형모델의 장점을 쉽게 무시할 수는 없다.
■ 본인이나 경영진 또는 누군가에게 어떻게 작동하는지 쉽게 설명할 수 있다.
■ 숫자 및 확률 추정, 순위 지정과 많은 수의 클래스까지 분류를 처리할 수 있으므로 데이터 문제와 관련해 유연성이 있다.
■ 처리해야 하는 데이터의 양에 상관없이 신속하게 훈련할 수 있다.
■ 모든 생산 환경에서 빠르고 쉽게 구현할 수 있다.
■ 사용자에 대해 실시간 응답이 가능하도록 확장이 가능하다.
빠르고 구체적인 방법으로 데이터의 가치를 전달하는 것이 무엇보다 중요하다면, 이 책을 따라가면서 선형모델이 얼마나 도움이 되는지 살펴보자.
목차
- 지은이 소개
기술 감수자 소개
옮긴이 소개
옮긴이의 말
들어가며
1장. 회귀분석-데이터 과학의 주역
__회귀분석과 데이터 과학
____데이터 과학의 가능성 답사
____데이터 과학의 난제
____선형모델
____이 책의 목표
__데이터 과학을 위한 파이썬
____파이썬 설치
____파이썬 2와 파이썬 3의 선택
____단계별 설치
____패키지 설치
____패키지 업그레이드
____과학용 배포판
____Jupyter 및 IPython 소개
__선형모델을 위한 파이썬 패키지와 함수
____NumPy
____SciPy
____Statsmodels
____Scikit-learn
__요약
2장. 단순선형회귀분석 접근
__회귀 문제 정의
____선형모델과 지도 학습
____선형모델 제품군
____단순선형회귀를 위한 준비
__기초부터 시작
____선형관계 측정
__선형회귀로 확장
____Statsmodels를 사용한 회귀
____결정계수
____계수의 의미와 중요성
____적합값 평가
____상관관계는 인과관계가 아니다
____회귀모델을 이용한 예측
____Scikit-learn을 사용한 회귀
__비용 함수 최소화
____제곱오차를 사용하는 이유
____의사 역행렬 및 기타 최적화 방법
____작업에서의 기울기 하강
__요약
3장. 다중회귀분석
__여러 특성 사용
____Statsmodel로 모델 구축
____공식을 대안으로 사용
____상관행렬
__기울기 하강 재방문
____특성 조정
____비표준화 계수
__특성 중요도 평가
____표준화된 계수 검사
____R2으로 모델 비교
__상호작용 모델
____상호작용 발견
__다항식 회귀
____선형 대 3차 변환 테스트
____더 높은 차수의 솔루션 제공
____과소 적합과 과잉 적합 소개
__요약
4장. 로지스틱회귀
__분류 문제 정의
____문제의 공식화: 이진 분류
____클래시파이어의 성능 평가
__확률 기반 접근법 정의
____로지스틱 함수와 로짓 함수에 대한 추가 정보
____몇 가지 코드 확인
____로지스틱회귀의 장점과 단점
__기울기 하강 재방문
__다중 클래스 로지스틱회귀
__예제
__요약
5장. 데이터 준비
__숫자 특성 조정
____평균 중심화
____표준화
____정규화
____로지스틱회귀 사례
__정성적 특성 인코딩
____Pandas를 이용한 더미 코딩
____DictVectorizer와 one-hot encoding
____특성 해셔
__수치 특성 변환
____잔차 측정
____비닝 방법
__누락 데이터
____누락 데이터 대체
____누락된 값 추적
__이상치
____응답에서의 이상치
____예측변수의 이상치
____이상치 제거 또는 교체
__요약
6장. 일반화 달성
__샘플 외 데이터 검사
____샘플 분할 테스트
____교차 검증
____부트스트래핑
__특성의 그리디 선택
____마델론 데이터셋
____특성의 일변량 선택
____재귀적 특성 선택
__그리드 검색에 의한 최적화된 정규화
____리지 (L2 정규화)
__최적의 파라미터를 위한 그리드 검색
____무작위 그리드 검색
__라쏘 (L1 정규화)
____엘라스틱 넷
__안정성 선택
____마델론 실험
__요약
7장. 온라인과 일괄 학습
__배치 학습
__온라인 미니 배치 학습
____실제 예제
____테스트셋 없는 스트리밍 시나리오
__요약
8장. 고급 회귀 방법
__최소 각도 회귀
____LARS의 시각적 쇼케이스
____코드 예제
____LARS 정리
__베이지안 회귀
____베이지안 회귀 정리
__힌지 손실이 있는 SGD 분류
____로지스틱회귀와 비교
____SVR
____SVM 정리
__회귀 트리(CART)
____회귀 트리 정리
__배깅과 부스팅
__배깅
____부스팅
____앙상블 정리
__LAD를 이용한 기울기 부스팅 리그레서
____LAD를 사용한 GBM 정리
__요약
9장. 회귀모델의 실제 응용
__데이터셋 다운로드
____시계열 문제 데이터셋
____리그레션 문제 데이터셋
____다중 클래스 분류 문제 데이터셋
____랭킹 문제 데이터셋
__회귀 문제
____리그레서 대신 클래시파이어로 테스트
__불균형 및 다중 클래스 분류 문제
__순위 문제
__시계열 문제
____공개 질문
__요약
찾아보기
출판사 서평
★ 이 책에서 다루는 내용 ★
■ 선형회귀분석이 데이터 과학의 주역인 이유 확인
■ 데이터셋으로부터 회귀모델을 생성하고 성능 평가
■ 예측을 필요로 하는 실제 문제에 다중 선형회귀분석 적용
■ 로지스틱회귀분석을 사용해 훈련 및 테스트 포인트 분류 방법 학습
■ 다양한 데이터 정리와 데이터 준비 기술을 사용해 데이터 행렬 생성
■ 과잉 적합 문제를 해결하기 위한 몇 가지 기술 적용
■ 특성 생성 및 다항식 확장을 통한 과소 적합 문제 해결
■ 선형모델을 대형 데이터셋으로 확장하고 데이터를 처리하는 방법 학습
★ 이 책의 대상 독자 ★
데이터 과학과 통계, 수학에 대한 기본적인 이해를 가진 파이썬 개발자를 대상으로 한다. 또한 데이터 과학이나 통계학의 배경지식을 꼭 필요로 하지는 않지만, 데이터셋에 대한 회귀분석을 가장 효과적으로 수행하는 방법을 배우려는 모든 연공서열의 데이터 과학자에게 적합한 책이다. 여기서는 단순하고 이해하기 쉬우면서 효과적인 기법을 선보인다. 이 책은 파이썬을 사용해서 더 빠르고 더 나은 선형모델을 만들고 결과모델을 파이썬이나 원하는 컴퓨터 언어로 배포할 수 있는 지식을 제공할 것이다.
★ 이 책의 구성 ★
1장, ‘회귀분석?데이터 과학의 주역’에서는 회귀분석이 데이터 과학에 실제로 유용한 이유, 데이터 과학을 위해 파이썬을 신속하게 설정하는 방법과 예제를 통해 책 전체에 사용된 패키지의 개요를 소개한다.
2장, ‘단순선형회귀분석 접근’에서는 먼저 회귀 문제를 설명하고 리그레서를 적합시킨 다음 알고리즘의 수학 공식에 깔려 있는 의미를 부여함으로써 단순한 선형회귀분석을 제시한다. 그런 다음 더 높은 성능을 위해 모델을 튜닝하는 방법과 모든 파라미터를 깊이 있게 이해하는 방법을 배울 것이다. 마지막으로 기울기 하강에 대해 설명한다.
3장, ‘다중회귀분석 실행’에서는 단순선형회귀분석을 확장해 여러 특성에서 예측 정보를 추출하고 실제 예측 작업을 해결할 수 있는 모델을 만든다. 또한 특성 행렬에 대처하고 개요를 완성하기 위해 강화된 확률적 기울기 하강 기술과 다중 공선성, 상호작용 및 다항식 회귀에 관해 다룬다.
4장, ‘로지스틱회귀분석’에서는 선형모델에 대한 지식의 기초를 계속해서 제공한다. 필요한 수학적 정의부터 시작해 선형회귀를 이진 및 다중 클래스 분류 문제로 확장하는 방법을 보여준다.
5장, ‘데이터 준비’에서는 최상의 방법으로 데이터를 준비하기 위해 수행할 수 있는 작업과 특히 데이터가 누락돼 이상치가 존재하는 것과 같은 비정상적인 상황에서 데이터를 처리하는 방법 등 모델에 데이터를 공급하는 법을 설명한다.
6장, ‘일반화 달성’에서는 좀 더 복잡한 기술로 들어가기 전에 모델을 철저하게 테스트하고 최상의 상태로 튜닝해 간결하게 만들고 실질적인 최신 데이터를 얻는 데 필요한 핵심 데이터 과학 방법을 소개한다.
7장, ‘온라인과 일괄 학습’에서는 빅데이터에서 클래시파이어를 훈련하는 모범 사례를 설명한다. 먼저 일괄 학습과 그 한계에 대해 초점을 맞추고 그 다음 온라인 학습을 소개한다. 마지막으로 온라인 학습의 이점과 해싱 트릭의 효과를 결합한 빅데이터의 사례를 보여준다.
8장, ‘고급 회귀분석 방법’에서는 몇 가지 고급 회귀분석 방법을 소개한다. 수학적 공식에 너무 깊이 들어가지 않고 실용적인 적용을 주시하면서 최소 각도 회귀, 베이지안 회귀 및 힌지 손실을 포함한 확률적 기울기 하강에 대한 아이디어를 다루고 배깅 및 부스팅 기술을 접한다.
9장, ‘회귀모델의 실제 응용’에서는 선형모델로 해결되는 실제 데이터 과학 문제의 네 가지 실용적인 사례로 구성된다. 궁극적인 목표는 주어진 문제에 접근하는 방법과 해결 방법에 대해 추론을 어떻게 발전시켜 나가는지 보여줌으로써 발생할 수 있는 유사한 문제에 대한 청사진으로 활용할 수 있게 하는 것이다.
★ 옮긴이의 말 ★
데이터가 가속화되고 있는 상황 속에서 이 책은 데이터를 정리하고 분류해 모델을 구축하고 성능 향상을 위해 튜닝하는 다양한 기법을 제공한다.
단순선형회귀분석부터 시작해 다중회귀분석, 로지스틱회귀분석 그리고 라소 리지 회귀분석, 베이지안 회귀분석, 회귀 트리, 베깅 및 부스팅 등의 고급 회귀분석에 이르기까지 다양한 방법을 기술한다. 또한 이를 위해 데이터를 올바르게 준비하고, 모델이 최상의 성능을 발휘할 수 있도록 데이터를 처리하는 방법에 대해서도 설명한다.
이러한 모든 기법은 예제와 함께 제시되며, 각 예제는 데이터 분석에 많은 강점을 가지고 있는 파이썬 코드를 사용해 쉽게 이해할 수 있도록 구성돼 있다.
또한 후반부에 제시된 실용적인 사례는 구체적인 문제 해결 방법을 단계적으로 제시하고 있어 실생활에서 발생할 수 있는 유사한 문제에 대한 청사진으로 활용할 수 있을 것이다.
기본정보
ISBN | 9791161752501 | ||
---|---|---|---|
발행(출시)일자 | 2019년 01월 02일 | ||
쪽수 | 384쪽 | ||
크기 |
189 * 236
* 27
mm
/ 885 g
|
||
총권수 | 1권 | ||
원서명/저자명 | Regression Analysis with Python: Learn the art of regression analysis with Python/Luca Massaron, Alberto Boschetti |
Klover
e교환권은 적립 일로부터 180일 동안 사용 가능합니다.
리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 리뷰 종류별로 구매한 아이디당 한 상품에 최초 1회 작성 건들에 대해서만 제공됩니다.
판매가 1,000원 미만 도서의 경우 리워드 지급 대상에서 제외됩니다.
일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
리뷰는 1인이 중복으로 작성하실 수는 있지만, 평점계산은 가장 최근에 남긴 1건의 리뷰만 반영됩니다.
구매 후 리뷰 작성 시, e교환권 200원 적립
문장수집
e교환권은 적립 일로부터 180일 동안 사용 가능합니다. 리워드는 작성 후 다음 날 제공되며, 발송 전 작성 시 발송 완료 후 익일 제공됩니다.
리워드는 한 상품에 최초 1회만 제공됩니다.
주문취소/반품/절판/품절 시 리워드 대상에서 제외됩니다.
구매 후 리뷰 작성 시, e교환권 100원 적립