R

9. 한글 텍스트 마이닝 & 시각화

good_cow 2019. 3. 27. 03:07

1. 한글 텍스트 데이터를 분석하여 주요 키워드 추출하는 과정

 실제로는 KoNLP 패키지와 tm패키지를 함께 사용하나, 복잡하기 때문에 간단히 KoNLP 패키지만을 사용해서 실습한다.

1) 작업 디렉토리를 설정하고 필요 패키지 설치 및 실행하기

setwd 명령어로 작업 디렉토리를 설정하고, KoNLP, worldcloud 등의 필요 패키치를 설치하고 실행한다.


2) 분석할 파일 불러오기

readLines 명령어로 분석할 파일을 불러오고, head, length 명령어로 파일 불러오기가 제대로 수행됐는지 확인한다.


3) 중복 행 제거하고 필요 없는 특수문자 제거한 후 명사만 추출하기

unique, str_replace_all 명령어로 중복행을 제거하고 필요 없는 특수문자를 제거한다.

ex) data2 <- str_replace_all(data1,"[^[:alpha:][:digit:]]"," ")   : data2는 data1 에서 한글, 영어, 숫자를 제외한 모든 문제를 공백으로 대체한다.)

extractNoun으로 명사만 추출한다.


4) 불용어(필요없는 단어) 제거 및 용어 정리하기

lapply 명령어로 리스트 내의 중복된 단어를 제거, gsub로 필요없는 단어를 제거한다.

ex) gsub("\\d+", "",inlist(data))   : data 내의 숫자를 모두 제거한다.

gusb(past(c("R","programming","study"),collapse='|'),"R programming study",data)   :  R, programming, study를 R programming study로 용어 통일한다.


이러한 용어 정리를 직접 해주어야하기 때문에 가장 중요하고 오래 걸리는 작업.


5) 추출된 명사들을 집계하여 현황 보기

table 함수는 단어의 빈도를 출력하는 함수


6) 추가로 확인된 불용어를 다시 제거하기

불용어들을 파일에 저장한 후 불러와서 모두 제거하는 방식으로 한번더 불용어를 제거한다.


7) 워드 클라우드로 시각화한다.

freq 는 빈도 행을 적어주고, scale의 차이값을 크게 줄수록 빈도 차에 따른 글자 크기 차이가 크다.

 


2. 추출된 주요 키워드를 워드 클라우드로 시각화 하기

 워드 클라우드는 시각화 툴로 많이 언급된 키워드 일수록 폰트가 크게 나타난다.