본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

기초부터 시작하는 강화학습 신경망 알고리즘 AI는 어떻게 게임을 할까

위키북스 데이터 사이언스 시리즈 44
손민규 지음 | 위키북스 | 2019년 11월 21일 출간
  • 정가 : 27,000원
    판매가 : 24,300 [10%↓ 2,700원 할인]
  • 통합포인트 :
    [기본적립] 1,350원 적립 [5% 적립] [추가적립] 5만원 이상 구매 시 2천원 추가적립 안내 [회원혜택] 실버등급 이상, 3만원 이상 구매 시 2~4% 추가적립 안내
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    지금 주문하면 내일(10일,금) 도착 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내 바로드림 혜택
    휴일에는 바로드림 픽업으로 더 빨리 받아 보세요. 바로드림 혜택받고 이용하기

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 위키북스의 도서를 한 눈에 살펴보세요
    2017.11.23 ~ 2020.12.31
상품상세정보
ISBN 9791158391768(1158391765)
쪽수 312쪽
크기 174 * 235 * 27 mm /632g 판형알림

책소개

이 책이 속한 분야

강화학습을 어떻게 시작해야 할지 모르는 분들을 위해서 준비했습니다!

강화학습은 인간이 학습하는 과정과 비슷한 인공지능 분야 중 하나입니다. 로봇의 행동학습, 자율주행 자동차의 행동학습에 대표적으로 사용되며, 알파고의 핵심 알고리즘으로 유명해졌습니다.

이 책은 강화학습에 관심이 있지만 어디서 어떻게 시작해야 할지 모르는 분들을 위해 가장 기초적인 상태가치함수/행동가치함수의 정의부터 시작해서 신경망을 이용한 DQN까지 강화학습의 기본 알고리즘을 충분히 이해할 수 있게 구성했습니다.

실습 예제로 고전게임 틱택토(Tic Tac Toe)를 플레이하는 알파고 제로(AlphaGo Zero)와 같은 인공지능 플레이어를 만들어 봄으로써 인공지능이 어떻게 게임을 플레이하는가를 알아봅니다.

이 책으로 차근차근 실습을 진행한다면 강화학습의 기본 알고리즘을 충분히 이해할 수 있을 것이며, 이를 바탕으로 여러 가지 인공지능 시스템을 만들 수 있으리라 생각합니다.

이 책의 총서

총서 자세히 보기

상세이미지

기초부터 시작하는 강화학습 신경망 알고리즘(위키북스 데이터 사이언스 시리즈 44) 도서 상세이미지

저자소개

저자 : 손민규

소니 반도체에서 데이터 분석 업무를 통해 알고리즘 및 시스템 개발 업무와 사원 대상 통계 알고리즘 강의를 진행했으며, 현재 삼성전자에서 데이터 분석 업무를 하고 있다. 일본 큐슈대학교에서 인공지능의 한 분야인 Reinforcement Learning 알고리즘 개발로 박사학위를 받았으며, 관심 분야는 Reinforcement Learning, Neural Network, Genetic Algorithm 등 Machine Learning Algorithm을 활용한 시스템 개발이다.

- 저서: 데이터 분석을 떠받치는 수학(2018)
- 감수: 정석으로 배우는 딥러닝(2017)
- 번역: 가장 쉬운 딥러닝 입문 교실(2018), 실전! 딥러닝(2019)

목차

▣ 01장: 인공지능이란?
머신러닝의 종류
__지도학습
__비지도학습
__강화학습
강화학습과 신경망
이 책의 구성

▣ 02장: 강화학습
강화학습의 기본 요소
__환경
__상태 (S)
__에이전트
__행동 (A)
__상태전이확률 (P)
__보상 (R)
__수익 (G)
__정책 (r)
__에피소드
__마르코프 의사결정과정 (MDP)
환경과 에이전트 준비
가치함수 : 상태/행동의 가치 계산
__상태가치함수 : Vr
__행동가치함수 : Qr
동적계획법 : 최적 정책 선택
__정책 평가
__반복 정책 평가
__정책 개선
__정책 반복
__가치 반복
몬테카를로 방법
__몬테카를로 방법의 Prediction
__몬테카를로 방법의 Control
시간차 학습
__시간차 학습의 Prediction
__시간차 학습의 Control : SARSA(On-policy)
__시간차 학습의 Control : Q-learning(Off-policy)
__Double Q-learning
__정책 그레이디언트 : 액터-크리틱
함수 근사
함수 근사 : TD(0) Prediction
함수 근사 : Q-learning

▣ 03장: 인공신경망
퍼셉트론
손실함수
__평균제곱오차
__교차엔트로피오차
경사하강법
퍼셉트론의 학습
__숫자 외우기
__선형 함수 근사
__비선형 함수 근사
다층 퍼셉트론
활성화 함수
__시그모이드 함수
__하이퍼볼릭탄젠트 함수
__ReLU 함수
__소프트맥스 함수
오차역전파법
__오차역전파법이란?
__중간층과 출력층 사이의 가중치와 편향 학습
__입력층과 중간층 사이의 가중치와 편향 학습
__비선형 함수 근사
학습 최적화
__일정 비율 감소
__모멘텀
__AdaGrad
__RMSProp
__Adam
__드롭아웃
__배치 정규화
__그 밖의 방법
배치 경사하강법, 확률적 경사하강법, 미니배치 경사하강법
__배치 경사하강법
__확률적 경사하강법
__미니 배치 경사하강법
__에폭
케라스를 이용한 신경망 구현
합성곱신경망
__합성곱신경망이란?
__합성곱층
__채널
__스트라이드
__패딩
__풀링층
__플래튼층
케라스를 이용한 합성곱신경망 구현
__손글씨 데이터
__손글씨 데이터 전처리
__합성곱신경망 구축
__학습과 결과 확인

▣ 04장: 인공지능 만들기: 틱택토 게임
틱택토 준비
인간 플레이어
랜덤 플레이어
게임 진행 함수
몬테카를로 플레이어
Q-learning 플레이어
DQN 플레이어

▣ 부록A: 참고 자료
A.1 미분
A.2 편미분
A.3 연쇄법칙

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 분야의 베스트

  • 김정준
    29,700원
  • 윤인성
    16,200원
  • 찰스 펫졸드
    22,500원
  • 조블리(조애리)
    20,700원
  • 길벗R&D
    12,600원
더보기+

이 분야의 신간

더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품