사진출처: gabworthy.com
빅데이터 저장 환경에서는 공간의 확보가 중요하다. 때문에 주기적인 모니터링을 하며, 문제/오류가 발생할 경우 내역을 분석해 처리하도록 한다.
사전에 수행 할 수 있는 것
1. RDB
인덱스와 여유 공간을 계산해 저장 공간을 확보한다.
보통 3개의 복제파일을 운영하기 때문에 이를 감안해 저장 공간을 설정하며, 여유 공간을 계산하여 확보한다.
분산파일시스템은 비교적 저렴한 하드웨어를 대량으로 이용하게 된다. 때문에, 고장의 가능성을 전제로 해 여러 개의 복제파일을 생성해두는 것이다. 또한 파일의 위치에 대한 정보도 복사본이 필요하다.
[참고]맵리듀스 Map + Reduce
여러 개의 컴퓨터를 활용하는 분산 데이터 처리 기술.
step 1(Map): 대규모 데이터를 여러 컴퓨터에 분산 & 병렬 처리하여 중간 결과를 생성한다.
step 2(Reduce): 중간 결과를 결합해 최종 결과를 얻는다.
확장 기술 비교
1. Scale Up
CPU, 메모리, 하드디스크 등 성능이 좋은 장비를 도입해 처리 능력을 향상시킨다.
컨트롤러나 네트워크 인프라 비용은 발생하지 않는다.
용량 확장시 제약이 있다 (지원 가능한 디바이스의 수가 한정되기 때문).
2. Scale Out
장비의 수를 늘려 처리 능력을 향상시킨다.
(구글의 검색 시스템은 이 방식을 사용하고 있다)
추가된 노드들을 한 시스템으로 운영하기 위한 네트워크 장비가 필요하다.
저장 용량 확장성이 매우 좋다.
- 분산 파일시스템(GFS)은 여러 대의 컴퓨터를 조합해 대규모 기억장치를 만드는 기술이다. [본문으로]
'ㆍ DB, AI' 카테고리의 다른 글
[빅데이터] 솔루션 (1) 소셜메트릭스(다음소프트) (0) | 2016.12.31 |
---|---|
[빅데이터와 심리] 소셜지성(Social Intelligence) (0) | 2016.12.19 |
[빅데이터] 비정형 데이터(Unstructured Data): 특징, 수집, 분석 (0) | 2016.12.14 |
[빅데이터] 교육과정, 필요 역량 (0) | 2016.12.12 |
[빅데이터 활용] 필요 인력 직무 구분 (0) | 2016.11.25 |