본문내용 바로가기
MD의선택 무료배송 이벤트 소득공제

자연어 텍스트 처리를 통한 검색 시스템 구축 아파치 솔라, 루씬, OpenNLP 등 오픈소스 활용

에이콘 데이터 과학 시리즈

이 책의 다른 상품 정보

  • 정가 : 40,000원
    판매가 : 36,000 [10%↓ 4,000원 할인]
  • 통합포인트 :
    [기본적립] 2,000원 적립 [5% 적립] 안내 [추가적립] 5만원 이상 구매 시 2천원 추가적립 [회원혜택] 우수회원 3만원 이상 구매 시 2~4% 추가적립
  • 추가혜택 : 포인트 안내 도서소득공제 안내 추가혜택 더보기
  • 배송비 : 무료 배송비 안내
  • 배송일정 : 서울특별시 종로구 세종대로 기준 지역변경
    10월 21일 출고 예정 배송일정 안내
  • 바로드림 : 인터넷으로 주문하고 매장에서 직접 수령 안내

이 책의 이벤트 해외주문/바로드림/제휴사주문/업체배송건의 경우 1+1 증정상품이 발송되지 않습니다.

  • 개발자로 입문하기: 일단 이것부터 읽어보자!
    2019.05.31 ~ 2020.12.31
  • MANNING, O'REILLY, PACKT, WILE..
    2016.03.07 ~ 2020.12.31
상품상세정보
ISBN 9788960776500(8960776505)
쪽수 456쪽
크기 188 * 235 * 27 mm /1071g 판형알림
이 책의 원서/번역서 Taming Text: How to Find, Organize, and Manipulate It/Grant Ingersoll

책소개

이 책이 속한 분야

현대 웹 서비스에서 검색은 빼놓을 수 없는 기능이다. 사용자는 검색에 익숙하고, 검색 결과의 앞부분에서 곧바로 자신이 원하는 링크를 찾길 바란다. 사용자의 기준을 만족시키기는 어렵지만, 다행히 잘 만들어진 오픈 소스가 이미 존재한다. 이 책은 검색과 자연어 처리에 대한 기초적인 지식을 소개하고, 아파치 솔라, OpenNLP 등의 오픈 소스를 이용해서 실제로 기능을 사용하는 법을 알려준다. 이 책은 검색이나 자연어 처리를 서비스의 기능으로 제공해야 하는 개발자에게 좋은 길잡이가 되어줄 것이다. 한국어판에서는 솔라 7.5버전에서 달라진 점과 머하웃을 대체해서 사용할 수 있는 방법을 안내한다.

저자소개

저자 : 그랜트 잉거솔

검색과 자연언어 처리 도구를 개발하는 루시드 이미지네이션Lucid Imagination의 창업자다. 루시드 이미지네이션을 창업하기 전에는 시라큐즈 대학의 자연언어 처리 센터의 시니어 소프트웨어 엔지니어였다. 자연언어 처리 센터와 그 이전에는 MNIS-텍스트와이즈(TextWise)에서 정보 검색, 질의응답, 클러스터링, 요약, 카테고리 분류를 수반하는 다수의 텍스트 처리 애플리케이션을 개발했다. 아파치 루씬(Lucene) 자바 프로젝트의 커미터이면서 강연자이자 트레이너이고, 아파치 머하웃(Mahout) 기계학습 프로젝트의 공동 창립자다. 시라큐즈 대학에서 컴퓨터과학 석사학위를 받았으며, 암허스트 칼리지에서 수학과 컴퓨터과학 학사학위를 받았다.

저자 : 토마스 모튼

저자 토마스 모튼 (Thomas Morton)은 텍스트 처리와 기계학습 분야의 소프트웨어를 개발하고 연구를 수행한다. 최근 5년 동안 OpenNLP 텍스트 처리 프로젝트와 최대 엔트로피 기계학습 프로젝트의 주요 개발자이자 관리자였다. 2005년, 펜실베이니아 대학에서 컴퓨터과학 박사학위를 받았고, 업계에서 텍스트 처리와 기계학습을 기업 수준의 개발에 적용하는 일을 수행했다. 현재 필라델피아에 있는 컴캐스트 인터랙티브 미디어(Comcast Interactive Media)에서 소프트웨어 아키텍트로 일하고 있다.

저자 : 드류 패리스

저자 드류 패리스 (Drew Farris)는 대규모 분석과 분산 컴퓨팅 및 기계학습을 주로 하는 전문 소프트웨어 개발자이자 기술 컨설턴트다. 전에는 텍스트와이즈(Textwise)에서 일하면서 자연언어 처리와 분류, 시각화 기법을 조합해서 다양한 텍스트 조사와 관리, 검색 애플리케이션을 만들었다. 아파치 머하웃, 루씬, 솔라 등의 여러 가지 오픈소스 프로젝트에 기여했고, 시라큐즈 대학 정보학부의 정보자원관리 석사학위와 컴퓨터그래픽스 학사학위를 보유하고 있다.

역자 : 임혜연

소프트웨어가 세상을 더 좋게 바꿀 수 있는지 고민하며 사는 개발자다. 인간 언어와 프로그래밍 언어, 프론트엔드부터 백엔드까지 다 파고들고 싶은 욕심이 있는 사람이다. 옮긴 책으로는 에이콘출판사에서 발간한 『데이터 접근 패턴』(2013)이 있다.

목차

1장. 텍스트 길들이기 시작
1.1 텍스트 길들이기가 중요한 이유
1.2 미리보기: 사실 기반 질의응답 시스템
1.2.1 안녕하세요, 프랑켄슈타인 박사님
1.3 텍스트를 이해하기는 어렵다
1.4 길들여진 텍스트
1.5 텍스트와 지능적인 앱: 검색과 그 너머
1.5.1 검색과 일치
1.5.2 정보 추출
1.5.3 정보 그룹화
1.5.4 지능적인 애플리케이션
1.6 정리
1.7 참고 자료

2장. 텍스트 길들이기 기초
2.1 언어의 기초
2.1.1 단어와 그 범주
2.1.2 구와 절
2.1.3 형태론
2.2 텍스트 프로세싱을 위한 일반적인 도구
2.2.1 문자열 조작 도구
2.2.2 토큰과 토큰 분리
2.2.3 품사 배정
2.2.4 어간 추출
2.2.5 문장 탐지
2.2.6 구문 분석과 문법
2.7.7 시퀀스 모델링
2.3 일반 파일 형식에서 콘텐츠의 전처리와 추출
2.3.1 전처리의 중요성
2.3.2 아파치 티카를 사용한 콘텐츠 추출
2.4 정리
2.5 참고 자료

3장. 검색
3.1 검색과 패싯 사례: 아마존
3.2 검색 개념 개론
3.2.1 콘텐츠로 색인 만들기
3.2.2 사용자 입력
3.2.3 벡터 공간 모델로 문서 순위화
3.2.4 결과 표시
3.3 아파치 솔라 검색 서버 소개
3.3.1 솔라 처음 실행
3.3.2 솔라 개념 이해
3.4 아파치 솔라를 사용한 콘텐츠 색인
3.4.1 XML을 사용한 인덱스
3.4.2 솔라와 아파치 티카를 사용한 콘텐츠 추출과 인덱스 작성
3.5 아파치 솔라로 콘텐츠 검색
3.5.1 솔라 질의 입력 파라미터
3.5.2 추출된 콘텐츠에 대한 패싯
3.6 검색 성능 요소 이해
3.6.1 품질 판단
3.6.2 수량 판단
3.7 검색 성능 개선
3.7.1 하드웨어 개선
3.7.2 분석 개선
3.7.3 질의 성능 개선
3.7.4 대안적인 채점 모델
3.7.5 솔라의 성능 개선을 위한 기법
3.8 검색 대안
3.9 정리
3.10 참고 자료

4장. 유사 문자열 일치
4.1 유사 문자열 일치에 대한 접근 방식
4.1.1 문자 겹침 척도
4.1.2 편집 거리 척도
4.1.3 n그램 편집 거리
4.2 유사 일치 문자열 검색
4.2.1 접두사를 사용한 일치 확인을 솔라로 수행
4.2.2 접두사 일치를 위한 트라이 사용
4.2.3 일치 확인을 위한 n그램 사용
4.3 유사 문자열 일치 애플리케이션 작성
4.3.1 검색에 사전 입력 추가
4.3.2 검색을 위한 질의 철자 검사
4.3.3 레코드 일치 확인
4.4 정리
4.5 참고 자료

5장. 인명, 지명. 사물 식별
5.1 개체명 인식에 대한 접근법
5.1.1 규칙을 사용한 이름 인식
5.1.2 이름 인식에 통계적 분류기 사용
5.2 OpenNLP를 사용한 기본적인 개체 인식
5.2.1 OpenNLP로 이름 찾기
5.2.2 OpenNLP로 식별된 이름 해석
5.2.3 확률 기반 이름 필터링
5.3 OpenNLP를 이용한 심도 있는 개체 식별
5.3.1 OpenNLP로 복수의 개체 유형 인식
5.3.2 후드 아래: OpenNLP가 이름을 식별하는 방법
5.4 OpenNLP의 성능
5.4.1 결과의 품질
5.4.2 실행 시간 성능
5.4.3 OpenNLP의 메모리 사용량
5.5 OpenNLP 개체명 식별을 새 도메인의 요구 사항에 맞추기
5.5.1 모델 훈련 이유와 방법
5.5.2 OpenNLP 모델 훈련
5.5.3 모델링 입력 바꾸기
5.5.4 이름을 모델로 만드는 새로운 방법
5.6 정리
5.7 추가 자료

6장. 텍스트 클러스터링
6.1 구글 뉴스 문서 클러스터링
6.2 클러스터링 기초
6.2.1 클러스터링의 대상인 세 가지 텍스트 유형
6.2.2 클러스터링 알고리즘의 선택
6.2.3 유사도 결정
6.2.4 결과에 라벨 붙이기
6.2.5 클러스터링 결과의 평가 방법
6.3 간단한 클러스터링 애플리케이션 설정
6.4 Carrot2를 사용한 검색 결과 클러스터링
6.4.1 Carrot2 API 사용
6.4.2 Carrot2를 사용한 솔라 검색 결과 클러스터링
6.5 아파치 머하웃을 사용한 문서 컬렉션 클러스터링
6.5.1 클러스터링용 데이터 준비
6.5.2 K 평균 클러스터링
6.6 아파치 머하웃을 사용한 주제 모델링
6.7 클러스터링 성능 분석
6.7.1 자질 선택과 축소
6.7.2 Carrot2 성능과 품질
6.7.3 머하웃 클러스터링 벤치마크
6.8 감사의 말
6.9 정리
6.10 참고 자료

7장. 분류, 커테고리 분류, 태깅
7.1 분류와 카테고리 분류 소개
7.2 분류 과정
7.2.1 분류 체계 선택
7.2.2 텍스트 카테고리 분류를 위한 자질 찾기
7.2.3 훈련 데이터의 중요성
7.2.4 분류기 성능 평가
7.2.5 분류기를 생산 환경에 배치
7.3 아파치 루씬으로 문서 카테고리 분류기 작성
7.3.1 루씬으로 텍스트 카테고리 분류
7.3.2 MoreLikeThis 카테고리 분류기에 사용할 훈련 데이터 준비
7.3.3 MoreLikeThis 분류기 훈련
7.3.4 MoreLikeThis 카테고리 분류기로 문서를 카테고리 분류
7.3.5 MoreLikeThis 카테고리 분류기 테스트
7.3.6 생산 단계에서의 MoreLikeThis
7.4 아파치 머하웃으로 나이브 베이즈 분류기 훈련
7.4.1 나이브 베이즈 분류 방식으로 텍스트를 카테고리 분류
7.4.2 훈련 데이터 준비
7.4.3 테스트 데이터 숨겨두기
7.4.4 분류기 훈련
7.4.5 분류기 테스트
7.4.6 부트스트래핑 프로세스 개선
7.4.7 솔라와 머하웃 베이즈 분류기 통합
7.5 OpenNLP로 문서 카테고리 분류
7.5.1 회귀 모델과 최대 엔트로피 문서 카테고리 분류
7.5.2 최대 엔트로피 문서 카테고리 분류기를 위해 훈련 데이터 준비
7.5.3 최대 엔트로피 문서 카테고리 분류기 훈련
7.5.4 최대 엔트로피 분류기 테스트
7.5.5 생산 시스템에서의 최대 엔트로피 문서 카테고리 분류
7.6 아파치 솔라를 사용하는 태그 추천기 작성
7.6.1 태그 추천을 위한 훈련 데이터 수집
7.6.2 훈련 데이터 준비
7.6.3 솔라 태그 추천기 훈련
7.6.4 추천 태그 생성
7.6.5 태그 추천기 평가
7.7 정리
7.8 참고 자료

8장. 질의응답 시스템 예제 구축
8.1 질의응답 시스템의 기초
8.2 QA 코드 설치와 실행
8.3 표본 질의응답 아키텍처
8.4 질문의 이해와 답변 생성
8.4.1 답변 유형 분류기 훈련
8.4.2 질의를 청크로 분리
8.4.3 답변 유형 계산
8.4.4 질의 생성
8.4.5 후보 패시지 순위화
8.5 시스템 개선을 위한 과정
8.6 정리
8.7 참고 자료

9장. 길들여지지 않는 텍스트: 다음 개척지 탐구
9.1 의미론, 담론, 화용론: 고수준 NLP 탐구
9.1.1 의미론
9.1.2 담화
9.1.3 화용론
9.2 문서와 컬렉션 요약
9.3 관계 추출
9.3.1 접근 방식 개요
9.3.2 평가
9.3.3 관계 추출을 위한 도구
9.4 중요한 콘텐츠와 인물 식별
9.4.1 전반적 중요도와 권위
9.4.2 개인적 중요도
9.4.3 중요성에 대한 자료와 포인터
9.5 정서 분석을 통해 감정 감지
9.5.1 역사와 비평
9.5.2 도구와 데이터 요구
9.5.3 기본적 극성 알고리즘
9.5.4 고급 주제
9.5.5 정서 분석을 위한 오픈소스 라이브러리
9.6 교차 언어 정보 검색
9.7 정리
9.8 참고 자료

출판사 서평

★ 이 책에서 다루는 내용 ★
삶에는 정보가 너무나 많고, 우리는 거기에 압도당해 있다. 다행히도 영리한 개발자에게 많이 필요한 구명줄을 던져줄 수 있는 구조화되지 않은 텍스트를 관리하기 위한 실용적인 도구와 기법들이 있다. 이 책에서 그 도구와 방법들을 찾아볼 수 있다. 이 책은 실제 애플리케이션에서 텍스트를 다루는 방법에 대한 실용적인 예제 중심의 안내서다. 전문(full-text) 검색, 고유명사 인식, 클러스터링, 태그 부착, 정보 추출, 요약 같은 유용한 기법을 소개한다. 독자는 실제 사용 사례의 기반 지식을 체계적으로 ... 더보기

북로그 리뷰 (0) 쓰러가기

도서 구매 후 리뷰를 작성하시면 통합포인트를 드립니다.
결제 90일 이내 작성 시 300원 / 발송 후 5일 이내 작성시 400원 / 이 상품의 첫 리뷰 작성 시 500원
(포인트는 작성 후 다음 날 적립되며, 도서 발송 전 작성 시에는 발송 후 익일에 적립됩니다.
외서/eBook/음반/DVD/GIFT 및 잡지 상품 제외)
안내
  • 해당도서의 리뷰가 없습니다.

Klover 평점/리뷰 (0)

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기
※구매도서의 문장수집을 기록하면 통합포인트 적립 안내

교환/반품/품절안내

※ 상품 설명에 반품/교환 관련한 안내가 있는 경우 그 내용을 우선으로 합니다. (업체 사정에 따라 달라질 수 있습니다.)

교환/반품/품절안내
반품/교환방법 마이룸 > 주문관리 > 주문/배송내역 > 주문조회 > 반품/교환신청 ,
[1:1상담>반품/교환/환불] 또는 고객센터 (1544-1900)

※ 오픈마켓, 해외배송주문, 기프트 주문시 [1:1상담>반품/교환/환불]
    또는 고객센터 (1544-1900)
반품/교환가능 기간 변심반품의 경우 수령 후 7일 이내,
상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
반품/교환비용 변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
반품/교환 불가 사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
    (단지 확인을 위한 포장 훼손은 제외)
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우
    예) 화장품, 식품, 가전제품(악세서리 포함) 등
  • 복제가 가능한 상품 등의 포장을 훼손한 경우
    예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우 ((1)해외주문도서)
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에
    해당되는 경우
(1) 해외주문도서 : 이용자의 요청에 의한 개인주문상품으로 단순변심 및 착오로 인한 취소/교환/반품 시 ‘해외주문 반품/취소 수수료’ 고객 부담 (해외주문 반품/취소 수수료 : ①양서-판매정가의 12%, ②일서-판매정가의 7%를 적용)
상품 품절 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는
이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은
    소비자분쟁해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의
    소비자 보호에 관한 법률에 따라 처리함

이 책의 원서번역서

안내

이 분야의 베스트

  • 윤인성
    16,200원
  • 한국데이터진흥원
    16,200원
  • 이남호
    23,310원
  • 이남호
    23,310원
  • 윤종식
    25,200원
더보기+

이 분야의 신간

  • 블레이크 J. 해리스
    25,200원
  • 길벗R&D
    18,900원
  • 로버트 C. 마틴
    26,100원
  • 박해선
    17,820원
  • 이기창
    31,500원
더보기+

바로가기

  • 우측 확장형 배너 2
  • 우측 확장형 배너 2

최근 본 상품