본문으로 바로가기

텍스트 마이닝


'빅데이터' 이전부터 있던 기술. 빅데이터 분석에 사용될 수 있는 기술.

텍스트 마이닝은 비·반정형 텍스트 데이터를 자연어 처리 기술에 기반하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술이다. 이 기술을 통하여 방대한텍스트 뭉치에서 의미있는 정보를 추출해 내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내는 등, 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다. 데이터로부터 정보를 추출 및 분석하여 정보를 재생산하는 텍스트 마이닝 과정은 다음과 같은 단계를 거친다[각주:1].


텍스트 문서 → 전처리 → 의미정보 변환 → 의미정보 추출 → 패턴 및 경향 분석 → 정보교환 및 평가


구조화 과정

구조화된 데이터(ex. 수치)는 컴퓨터가 직접적으로 처리할 수 있다. 반면, 텍스트 데이터는 구조화된 수치 데이터와 달리 자연어로 구성되어 있기 때문에 비구조적 데이터라 한다. 컴퓨터는 텍스트 데이터(문서- 문단 - 문장 - 단어)를 바로 처리할 수 없다. 텍스트 데이터를 분석하려면, 데이터는 컴퓨터가 처리할 수 있는 구조로 표현해 주어야 한다. 때문에 텍스트 데이터는 처리 전 '구조화 시키는 과정'이 필수적이다.


가장 보편적으로 사용하는 구조화 과정은 텍스트 색인이다.

텍스트 색인은 문서를 구성하는 단어와 그 정보를 리스트로 표현한다.

문서 표현성의 정확도가 낮고 단어의 중의적 의미의 해결이 불가능하다는 단점을 지닌다.

하지만, 구조화 과정이 단순하고 간편하다. 정보 검색 분야에서 많이 채택해 사용하고 있다.


전체 단어 중 약 20%정도만이 문서의 내용을 반영하기 때문에 선별 과정이 필요하다.


색인에 문서의 핵심 내용을 담은 단어만 반영하도록 하여, 처리 효율성을 향상시키고 불필요한 문서가 조회되는 것을 지양하도록 한다. 정보 검색시 불필요한 문서가 조회되지 않도록 하고, 검색 시간을 단축할 수 있다.


+ 정보워드(키워드): 문서의 내용/의미를 실제 반영하는 단어로 대부분 명사로 구성되게 된다.

- 스톱워드: 문법적 기능을 담당하는 단어(조사, 관형어 등)


단어를 선별하기 위해, 이를 변별할 수 있는 가중치를 부여하는 것이 중요하다.



텍스트 마이닝 응용 분야

텍스트 마이닝의 주요 응용분야로는 문서 분류(Document Classification), 문서 군집(Document Clustering), 정보 추출(Information Extraction), 문서 요약(Document Summarization) 이 있다[각주:2].


1. 분류(Categorization)

주어진 텍스트의 내용을 분석해, 사전에 정의된 범주를 적절히 부여하는 과정이다.


ex) 뉴스 기사 분석 -> 정치/사회/생활/스포츠/IT/연예 등의 범주로 자동 분류


다량의 문서는 내용들을 직접 일일이 파악하고 분류하기에는 많은 시간이 소요된다. 또한 전문적인 내용의 경우 세부 분류는 전문가만이 수행할 수 있다. 

텍스트 마이닝은 텍스트의 내용을 수동적으로 일일이 파악할 필요 없이 자동으로 문서를 범주화해준다.


분류 기법

- 문서 유사도, 패턴 인식, 정보 검색 기반


2. 요약(Summarization)

문서의 전체 내용을 대표할 수 있는 내용을 추출하는 과정이다.

다량/대용량 문서의 내용 파악을 도와 필요한 문서에 접근하는 시간을 단축해줄 수 있다.


요약 기법

- 표면수준접근(surface level approach), 개체수준접근 (entity level approach), 화법수준접근 (discourse level approach)



3. 군집화(Clustering)

텍스트 집단을 내용의 유사도에 따라 여러 개의 소집단으로 분할하는 과정이다.

군집화를 통해 텍스트 분류의 예비 작업(범주체계 정의, 표본 텍스트 관리)을 자동화시켜줄 수 있다.

텍스트 군집화는 정보 검색 성능을 개선하기 위해 주로 사용된다. 모든 문서를 탐색하는 대신, 소집단을 탐색하여 검색 시간을 단축할 수 있다. 또한 사용자에게 문서들을 소집단으로 분할해 제시할 수 있어 브라우징 기능에 활용된다.


군집화 종류

- 정적 군집화: 군집의 개수를 파라미터로 미리 정의함

- 동적 군집화: 군집 개수 대신 임계 유사도를 파라미터로 지정함




참고: 조태호(2001). 텍스트 마이닝의 개념과 응용. 지식정보인프라(Journal of scientific & technological knowledge infrastructure, 5)

  1. 김정숙(2012). 빅데이터 활용과 관련기술 고찰. 한국콘텐츠학회지, 10(1), 34-40. [본문으로]
  2. 김정숙(2012). 빅데이터 활용과 관련기술 고찰. 한국콘텐츠학회지, 10(1), 34-40. [본문으로]