본문내용 바로가기

> 한빛미디어 > 칼럼 자세히 보기

칼럼
리스트보기

개발자가 아니어도, 크롤링 같은거 몰라도, 필요한 웹데이터를 수집하고 분석할 수 있다고?

2017.09.01
  
 
빅데이터, 클라우드에서 이제 머신 러닝, 딥 러닝, 그리고 이제는 4차 산업혁명까지
 
우리 주변은 우리의 의사와는 상관없이 무척 빠르게 흘러가고 있다. 빅데이터, 클라우드라는 단어를 들은 게 얼마 되지도 않은 것 같은데, 우리는 머신 러닝, 딥 러닝, 그리고 이제는 4차 산업혁명이라는 단어를 심심치 않게 쓰고 있다. 이러한 기간에 우리 자신이 얼마나 다양한 지식과 경험을 쌓았는지, 또 얼마나 발전했는지를 생각해 보면 우리는 거의 제자리에 있는데 우리를 둘러싼 기술과 비즈니스 환경은 따라잡기 힘들 정도로 변했다는 것에 대해 조바심을 느끼게 된다.
 
 
이미지 출처 : news.samsung.com/kr 
 
그러면서도 우리는 우리의 삶이 평안하고 좀 더 인간적이기를 원한다. 좀 더 작은 일에 기쁨을 느끼고 옳은 일을 하고, 세상이 돌아가는 것에 대해 좀 더 많은 정보와 지식을 얻기를 원한다. 이것은 마치 어렸을 때부터 익숙한 동네에 살면서 자주 멀리 여행을 가서 새로운 사실을 알고 경험하며, 세상이 돌아가는 이치를 알고 싶어 하는 것과 비슷하다고 볼 수 있다.
  
 
‘웹 데이터 수집의 기술’.
 
이 기술은 어쩌면 우리에게 이와 같은 두 가지 기분을 느낄 수 있게 해주는 기도 모르겠다. 사실 우리는 모두 데이터가 얼마나 중요한지 알고 있고, 데이터를 분석하고, 그로부터 무엇인가 인사이트를 찾아내기를 원한다. 가끔 빅데이터에 관련된 사례를 볼 때 그 기발함에 고개를 끄덕이면서 나도 할 수 있을 것 같다는 위안과 하고 싶다는 욕구를 가지기도 한다. 하지만 우리는 데이터를 모으는 일이 얼마나 어려운 일인지 알고 있다. 데이터를 모으는 노고를 간과하고 데이터의 중요성을 논하고 분석하기를 열망한다는 모순을 해결하기 위해서는 데이터를 모으는 일부터 시작해야 한다. 우리가 필요로 하고 익숙한 데이터는 우리 주변 곳곳에 널려있다. 포탈에도, 공공기관 페이지에도, 연구소와 대학 등에도. 4차 산업혁명이라는 거창한 단어도 뜯어보면 결국 데이터를 어떻게 이용하고 활용할 것인가가 주요한 요소이다. 데이터를 모으고 기초적으로 분류하는 데에는 다양한 지식과 기술이 필요한 것이 아니다. 거의 모두가 사용하고 있는 MS Google의 도구만을 이용해도 충분하다. 대단한 프로그램 기술이 필요한 것도 아니다. 하지만 앞에서 이야기한 것과 같이 빠르게 발전하는 세상을 따라가기 위한 조금의 부지런함이 필요하며, 그것만으로도 편안하게 세상 돌아가는 모습을 알 수 있다.
 
 
▶ 데이터 수집에 필요한 다양한 도구들
 
 
데이터와 크롤링에 대한 배경 지식이 ‘1’도 없어도 누구나 할 수 있는 데이터 수집 기술
 
프로그래머가 아니라고, ‘크롤링’, ‘스크래핑이라는 전문용어를 모른다고 조급해하거나 절대 못 할일이라고 생각하지 말고 <웹 데이터 수집의 기술> 1장부터 천천히 읽어보자. 바로 컴퓨터를 켤 필요도 없다. 이 글의 저자가 여러 번 강조하듯이 필요한 내용은 충분히 반복적으로 하나 하나 알려준다. 우리가 내딛는 작은 걸음이 여러분을 4차 산업혁명이라는 큰 세상으로 인도해 줄 것이다. 
 
 
<웹 데이터 수집의 기술>에서 대상으로 하는 주요 데이터
 
이 책은텍스트 데이터의 효율적인 수집을 목적으로 한다. 하지만 텍스트 데이터라고 해도 다양한 종류가 있다. 논문이나 뉴스, SNS에 게시된 자연어에 가까운 통계 데이터에서부터 상품 정보, 각종 순위 같은 수치 데이터까지 다양하다. (아래 이미지 참조)
 
 
▶ 주가 정보                                            
 
도서 목록
  
 
▶ 고객 리뷰                                           
 
▶ iOS/안드로이드 앱과 순위
 
 
▶ 네이버 검색 결과                                 
 
지도 데이터
 
 
<웹 데이터 수집의 기술> 지은이 '타쿠로 사사키'씨의 전하는 글로 이 글을 마무리 한다.
 
"이 책의 일관된 콘셉트는 최대한 편안하게 일하자는 것이죠. 저는 컴퓨터가 잘하는 것은 컴퓨터에 맡기고, 사람은 최대한 편하고 능률적으로 일해야 한다고 생각합니다. 엑셀이나 구글스프레드시트처럼 일상 업무에서 사용하는 프로그램만으로도 충분히 웹 데이터들을 수집할 수 있습니다. 별도의 프로그램도 필요없답니다. 이 책을 통해 여러분들의 컴퓨터가 보다 많은 일을 할 수 있기를 기대합니다."
 
 
웹 데이터 수집의 기술: 입문편 [컴퓨터/IT]  웹 데이터 수집의 기술: 입문편
타쿠로 사사키 | 한빛미디어
2017.08.15
 
| 전정아 (한빛미디어 IT활용서팀, 팀장)
 
리스트보기

바로가기

  • 우측 확장형 배너 2

최근 본 상품