하둡3 [빅데이터 분석 기사] 빅데이터 분석 데이터 저장 내용 정리! CAP이론, 빅데이터 저장시스템 1. 데이터 저장 1.1 CAP이론 -분산 컴퓨팅 환경의 특징을 일관성, 가용성, 지속성 세가지로 정의됨. -어떤 시스템이든 이 세가지 특성을 동시에 만족하기 어렵다고 설명함. -일관성: 분산 환경에서 모든 노드가 같은 시점에 같은 데이터를 보여줘야 함 -가용성: 일부 노드가 다운되어도 다른 노드에 영향 주지 않아야 함 -지속성: 데이터 전송 중에 일부 데이터를 손실하더라도 시스템은 정상 동작해야 함 1.2 빅데이터 저장시스템 선정을 위한 분석 1) 기능성비교 분석 2) 분석방식 및 환경 -빅데이터 저장방식: 파이시스템 형식으로 저장하는 방식, NoSQL저장시스템 사용하는 방식, RDBMS에 기반을 둔 데이터 웨어하우스방식. -저장방식과 환경을 고려하여 선택 3) 분석대상 데이터 유형 기업데이터인지, 과.. 2024. 4. 17. [빅데이터 분석 기사] 빅데이터 분석 데이터 저장 간단 정리! 하둡, 맵리듀스 (6) 1. 데이터 적재 1.1 데이터 적재도구 적재할 데이터의 유형과 실시간 처리 여부에 따라 관계형 데이터베이스, HDFS를 비롯한 분산파일시스템, NoSQL저장 시스템에 데이터를 적재할 수 있음. -수집된 데이터를 저장시스템에 적재시 Fluented, Lume, Scrivem Logstash와 같은 데이터 수집 도구들을 이용해 적재하는 방법도 있음. 1) 데이터 수집 도구를 이용한 데이터 적재 2) NoSQL DBMS가 제공하는 도구를 이용한 데이터 적재 -수집한 데이터가 CSV 등의 텍스트 데이터라면 mongoimport와 같은 적재도구를 사용하여 데이터 적재 가능. -로그 수집 도구를 쓰는 방식처럼 데이터 수집 주기등을 환경설정하여 사용할 수는 없음. 3) 관계형 DBMS의 데이터를 NoSQL DBMS.. 2024. 4. 17. [빅데이터 분석 기사] 대규모 데이터 분산 처리를 위한 하둡! HDFS, 맵리듀스 (3) 1. 분산 파일 시스템 1.1 하둡 분산파일 시스템 (HDFS: Hadoop Distributed File System) 하둡의 기본파일시스템, 대용량 데이터를 안정적으로 저장하기 위해 설계된 분산 파일 시스템. 1.2 하둡 -대규모 데이터 셋을 분산처리하기 위한 오픈소스 소프트웨어 프레임워크, 분산 환경 컴퓨팅을 목표로 시작한 프로젝트로 분산처리를 위한 파일 시스템. -대용량 파일을 클러스터에 여러 블록으로 분산 저장, 블록들은 마지막 블록 제외하고 모두 같은 크기(기본 64MB) -마스터 하나와 여러 개 슬레이브로 클러스터링 되어 구성 -데이터 손상 방지하기 위해 데이터 복제기법 사용. -대용량 파일 저장할 수 있는 기능 제공하는 분산파일 시스템과 저장된 데이터를 쉽고 빠르게 분석할 수 있는 컴퓨팅 .. 2024. 3. 20. 이전 1 다음