1. 데이터 적재
1.1 데이터 적재도구
적재할 데이터의 유형과 실시간 처리 여부에 따라 관계형 데이터베이스, HDFS를 비롯한 분산파일시스템, NoSQL저장 시스템에 데이터를 적재할 수 있음.
-수집된 데이터를 저장시스템에 적재시 Fluented, Lume, Scrivem Logstash와 같은 데이터 수집 도구들을 이용해 적재하는 방법도 있음.
1) 데이터 수집 도구를 이용한 데이터 적재
2) NoSQL DBMS가 제공하는 도구를 이용한 데이터 적재
-수집한 데이터가 CSV 등의 텍스트 데이터라면 mongoimport와 같은 적재도구를 사용하여 데이터 적재 가능.
-로그 수집 도구를 쓰는 방식처럼 데이터 수집 주기등을 환경설정하여 사용할 수는 없음.
3) 관계형 DBMS의 데이터를 NoSQL DBMS에서 적재
-기존 운영중이던 관계형 데이터베이스로부터 데이터를 추출하여 NoSQL데이터 베이스로 적재 가능.
-데이터 변형이 많이 필요한 경우: 데이터 적재를 위한 프로그램 작성하여 적재.
-큰 변화 없이 적재할 경우: SQLtoNoSQLimporter, Mongify등 도구 사용하여 적재.
1.2 데이터 적재 완료 테스트
-데이터 적재 내용에 따라 체크리스트 작성
-정형 데이터 경우: 테이블 개수와 속성 개수, 데이터 타입의 일치여부, 레코드 수 일치 여부가 체크리스트가 될 수 있음.
-반정형, 비정형 데이터 경우: 원천 데이터 테이블이 목적지 저장시스템에 맞게 생성되었는지, 레코드 수가 일치하는 지 등
- 데이터 테스트 케이스 개발
- 체크리스트 검증 및 데이터 테스트 케이스 실행 -> 검증 결과 분석하여 데이터 적재 결과 보고서 작성.
* CSV (Comma Separated Value) : 쉼표를 기준으로 항목 구분하여 저장한 데이터
2. 데이터 저장
2.1 빅데이터 저장 시스템
-대용량 데이터 집합을 저장하고 관리하는 시스템으로 사용자에게 데이터 제공 신뢰성과 가용성을 보장하는 시스템.
1) 파일 시스템 저장방식
-빅데이터를 확장 가능한 분산 파일 형태로 저장하는 방식의 대표적인 예: Apach HDFS(Hadoop Distrucuted File Systom), 구글의 GFS(Google File System)
-저사양 서버 활용하여 대용량, 분산, 데이터 집중형의 애플리케이션 지원, 사용자들에게 고성능 환경 제공하도록 구현.
2) 데이터 베이스 저장방식
-빅데이터 저장하는 방식: 전통적인 관계형 데이터베이스 시스템 이용, NoSQL데이터 베이스 시스템 이용
-NoSQL 데이터베이스는 대용량 데이터 저장 측면에서 봤을 때 관계형 데이터 베이스보다 수평적 확장성, 데이터 복제, 간편한 API제공, 일관성 보장 등의 장점.
2.2 데이터 저장 분산 파일 시스템
1) 하둡 분산파일 시스템 (HDFS: Hadoop Distributed File System)
-하둡: 아파치 진영에서 분산 환경 컴퓨팅을 목표로 시작한 프로젝트로 분산처리를 위한 파일 시스템. 대용량 파일을 클러스터에 여러 블록으로 분산 저장, 블록들은 마지막 블록 제외하고 모두 같은 크기(기본 64MB) 마스터 하나와 여러 개 슬레이브로 클러스터링 되어 구성 마스터노드: 네임노드라고 하며 슬레이브를 관리하는 메타데이터와 모니터링 시스템 운영
-슬레이브 노드: 데이터노드라고 하며 데이터 블록을 분산처리. 데이터 손상 방지하기 위해 데이터 복제기법 사용.
* 하둡: 대용량 파일 저장할 수 있는 기능 제공하는 분산파일 시스템과 저장된 데이터를 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼인 맵리듀스로 구성.
-대용량 비정형 데이터 저장, 분석에 효율적, 클러스터 구성을 통해 멀티노드로 부하를 분산시켜 처리 개별적인 서버에서 진행되는 병렬처리 결과를 하나로 묶어 시스템 과부하나 병목 현상 줄여줌.
장비 증가시킬 수록 성능 향상, 오픈소스 하둡 무료 사용 가능
*맵리듀스: 구글에서 발표한 분산 데이터 처리기술, 하둡 프로젝트에서 구현됨. 주어진 입력에 대해 여러 개의 부분으로 분할하고 각 부분에 대해 필요한 함수를 적용하여 결과값 저장(Map함수, Reduce함수로 구성) 분산 병렬 처리 가능
'통계 및 데이터분석' 카테고리의 다른 글
[빅데이터 분석 기사] 빅데이터 분석 데이터 저장 내용 정리! CAP이론, 빅데이터 저장시스템 (0) | 2024.04.17 |
---|---|
[빅데이터 분석 기사] 데이터 비식별화! 식별자, 속성자 (5) (0) | 2024.03.21 |
[빅데이터 분석 기사] 융합 데이터베이스 설계! 데이터 표준화, 모델링 (4) (0) | 2024.03.21 |
[빅데이터 분석 기사] 대규모 데이터 분산 처리를 위한 하둡! HDFS, 맵리듀스 (3) (0) | 2024.03.20 |
[빅데이터 분석 기사] 데이터 유형 및 속성 파악, 데이터 수집 및 전환(2) (0) | 2024.03.20 |