본문 바로가기

Starry Day

데이터 수집부터 워드클라우드 생성기 - 텍스톰

플롤로그

오랜만에 음식이 아닌 내용에 대해 글을 써본다. 업무 중 자사 제품의 경쟁우위를 가늠하기 위해 벤치마킹 할 일이 있었는데, 처음에는 노가다로 예를 들어 네이버에 키워드 입력해서 제공되는 결과물을 하나하나 클릭하면서 고객의 목소리를 확인을 하다가...일일히 내가 확인하는 정도의 수준은 아니더라도 전체적으로 고객들의 보이스가 긍정적인지 부정적인지 파악할 수 있는 툴이 있지 않을까?? 라는 생각으로 계속 블로그 뒤지고 있던 찰나에 우연한 계기로 그런 툴을 알게 되어 그 서비스에 대해 써보고자한다. 

 

텍스톰 : 웹 수집 > 텍스트 마이닝 > 시각화까지 한번에

기본적으로 무료는 아닌데, 처음 가입할 때 트라이얼 기간이라고해서 회사원 신분으로 가입하는 경우 60일에 20mb까지 무료로 제공한다. 학생 신분으로는 10mb를 60일까지 쓸 수 있게 해준다. 이후에는 용량별로 추가금을 내야 쓸 수 있고, 쓸 수 있는 기간은 용량에 따라 다른것으로 확인이 된다. 

 

회사원으로 회원가입할 때는 명함이나, 재직증명서를 첨부해서 접수하게 되어 있다. 이후에 텍스톰 쪽에서 검토를 한 후 승인이 나면 가입이 완료되는 수순이다. 그당시 난 명함을 집에 두고 있고, 몸은 일터에 있고(읭?) 그래서 온라인으로 땐 재직증명서 화면을 캡처해서 제출했더니 하루 지난 후 바로 승인이 됐다.

 

로그인하면 바로 상단에 필요한 데이터에 해당하는 키워드를 입력할 수 있다. 그리고 수집되는 검색 채널은 아래와 같다. 보시다시피 국내 포털 뿐만 아니라 필요하면 구글, 바이두, 유투브, 트위터, 페이스북까지 데이터를 수집 가능하다. 나같은 경우에는 용량이 아주 커질것을 고려해 네이버 블로그, 카페 그리고 다음 블로그, 카페, 이 정도만 체크했다. 그리고 진행하기 전 검색결과 페이지의 제목뿐만 아니라 그 안에 원문내용까지 끌어올수 있도록 설정을 해놨다. 필요에 따라 검색결과에 표시가 되는 제목과 내용만 수집되도록 설정할 수도 있어서 효율적이다.

 

실제 수집은 좀 시간이 걸린다. 용량에 따라 얼마나 걸리는지 잘은 모르겠지만 13메가 정도에 반나절은 걸린것 같다. 바로 되는 것은 아니고 몇시간 텀을 둬야하는 걸 알아두면 될 것 같다. 수집된 데이터 문서가 발행되면 나 같은 경우에는 전문가는 아니라서 (...) 바로 시각화를 해봤다. 그랬더니 말도 안되는 말과 단어들로 형성된 워드클라우드를 만나볼 수 있었다. 그래서 다시 분석리스트 > 텍스트마이닝 탭으로 가서 가장 오른쪽에 바로 편집하기 옵션을 눌렀다. 여기서 말도 안되는 단어들을 삭제하거나 말이 되는 단어로 변경 가능한데, 노하우가 없다보니 이 작업을 하고 다시 시각화하고 하는 작업을 몇십번 반복했다. 

 

결과물 : 나름 정제된 데이터로 완성한 나만의 워드클라우드

계속 반복작업을 하다가 한 60개 정도 말되는 단어들이 모여서 따로 엑셀에 정리를 해서 워드클라우드 생성하는 옵션을 선택했다. 그래서 생성된것이 아래의 워드클라우드! 이거 하나에 한 13메가 정도 썼으니...무료 트라이얼은 사실상 끝났다고 봐야한다. 어쨋튼 한번 처음부터 끝까지 데이터를 수집하고 텍스트 마이닝을 통해 워드클라우드 생성을 코딩없이, 비교적 낮은난이도로 해보고 싶다면 텍스톰 활용해보는 것을 추천한다. 학생들은 이 정도 서비스에 금액이 비싼건 아닌 것 같고, 매뉴얼이나 클래스도 제공하고 있으니 기본지식이 없으면 조금만 공부해서 툴을 돌리면 의미있는 워드클라우드 생성이 가능할 것 같다. 추천!