본문으로 바로가기

Credit: Radiare Software Solutions.





Gartner는 비정형 데이터(unstructured data)를 사전 정의된 데이터 모델을 따르지 않는 컨텐츠로 정의한다.


비정형 데이터? 특징과 종류!

- 사람이 만든(human-generated) 그리고 인간 중심(people-oriented)의 경향성을 띠고 있다.

- 언어 분석이 가능한 텍스트 데이터

- 또는 그보다 더 구조화 되지 않은 멀티미디어 데이터

- 예를 들어 블로그의 글, SNS 내의 정보, 이미지, 영상 등이다.



비정형 데이터 수집 기술

- Crawling, RSS, Open API, Streaming, FTP


비정형 데이터 분석의 문제점

구조화되지 않은 데이터이기 때문에, 특정 분석 기법을 쓰기 마련이다. 자동화를 통해서 데이터를 분석 가능한 형태로 스캔하고, 형식화하게 된다. 이때, 중요한 정보를 버리거나 왜곡/편향을 유발할 수 있다(대표 적 예로, 반어적 의미, 중의적 의미).


비정형 데이터의 생성 속도는 저장 공간의 확보라는 문제를 던져준다(Hilbert, 2012)[각주:1]. 때문에, 데이터를 요약(summarize)할 필요가 있다. 하지만, 요약은 정보의 손실을 가져올 수 밖에 없다.


=> 데이터의 증가 속도, 저장 비용, 정확성의 손실


  1. Hilbert, M.(2012). How Much Information Is There in the "Information Society"?. Significance, 9(4): 8-12 [본문으로]