본문으로 바로가기


사진출처: gabworthy.com


빅데이터 저장 환경에서는 공간의 확보가 중요하다. 때문에 주기적인 모니터링을 하며, 문제/오류가 발생할 경우 내역을 분석해 처리하도록 한다.


사전에 수행 할 수 있는 것

1. RDB

인덱스와 여유 공간을 계산해 저장 공간을 확보한다.


2. NoSQL, 분산파일시스템[각주:1]

보통 3개의 복제파일을 운영하기 때문에 이를 감안해 저장 공간을 설정하며, 여유 공간을 계산하여 확보한다.

분산파일시스템은 비교적 저렴한 하드웨어를 대량으로 이용하게 된다. 때문에, 고장의 가능성을 전제로 해 여러 개의 복제파일을 생성해두는 것이다. 또한 파일의 위치에 대한 정보도 복사본이 필요하다.


[참고]맵리듀스 Map + Reduce

여러 개의 컴퓨터를 활용하는 분산 데이터 처리 기술.

step 1(Map): 대규모 데이터를 여러 컴퓨터에 분산 & 병렬 처리하여 중간 결과를 생성한다.

step 2(Reduce): 중간 결과를 결합해 최종 결과를 얻는다.



확장 기술 비교

1. Scale Up

CPU, 메모리, 하드디스크 등 성능이 좋은 장비를 도입해  처리 능력을 향상시킨다.

컨트롤러나 네트워크 인프라 비용은 발생하지 않는다.

용량 확장시 제약이 있다 (지원 가능한 디바이스의 수가 한정되기 때문).


2. Scale Out

장비의 수를 늘려 처리 능력을 향상시킨다.

(구글의 검색 시스템은 이 방식을 사용하고 있다) 

추가된 노드들을 한 시스템으로 운영하기 위한 네트워크 장비가 필요하다.

저장 용량 확장성이 매우 좋다.



  1. 분산 파일시스템(GFS)은 여러 대의 컴퓨터를 조합해 대규모 기억장치를 만드는 기술이다. [본문으로]