본문 바로가기

빅데이터7

[빅데이터 분석 기사] 빅데이터 분석 데이터 저장 내용 정리! CAP이론, 빅데이터 저장시스템 1. 데이터 저장 1.1 CAP이론 -분산 컴퓨팅 환경의 특징을 일관성, 가용성, 지속성 세가지로 정의됨. -어떤 시스템이든 이 세가지 특성을 동시에 만족하기 어렵다고 설명함. -일관성: 분산 환경에서 모든 노드가 같은 시점에 같은 데이터를 보여줘야 함 -가용성: 일부 노드가 다운되어도 다른 노드에 영향 주지 않아야 함 -지속성: 데이터 전송 중에 일부 데이터를 손실하더라도 시스템은 정상 동작해야 함 1.2 빅데이터 저장시스템 선정을 위한 분석 1) 기능성비교 분석 2) 분석방식 및 환경 -빅데이터 저장방식: 파이시스템 형식으로 저장하는 방식, NoSQL저장시스템 사용하는 방식, RDBMS에 기반을 둔 데이터 웨어하우스방식. -저장방식과 환경을 고려하여 선택 3) 분석대상 데이터 유형 기업데이터인지, 과.. 2024. 4. 17.
[빅데이터 분석 기사] 빅데이터 분석 데이터 저장 간단 정리! 하둡, 맵리듀스 (6) 1. 데이터 적재 1.1 데이터 적재도구 적재할 데이터의 유형과 실시간 처리 여부에 따라 관계형 데이터베이스, HDFS를 비롯한 분산파일시스템, NoSQL저장 시스템에 데이터를 적재할 수 있음. -수집된 데이터를 저장시스템에 적재시 Fluented, Lume, Scrivem Logstash와 같은 데이터 수집 도구들을 이용해 적재하는 방법도 있음. 1) 데이터 수집 도구를 이용한 데이터 적재 2) NoSQL DBMS가 제공하는 도구를 이용한 데이터 적재 -수집한 데이터가 CSV 등의 텍스트 데이터라면 mongoimport와 같은 적재도구를 사용하여 데이터 적재 가능. -로그 수집 도구를 쓰는 방식처럼 데이터 수집 주기등을 환경설정하여 사용할 수는 없음. 3) 관계형 DBMS의 데이터를 NoSQL DBMS.. 2024. 4. 17.
[빅데이터 분석 기사] 데이터 비식별화! 식별자, 속성자 (5) 1. 데이터 비식별화 -개인정보 비식별화: 개인정보를 식별할 수 있는 값들을 몇가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 개인을 알아볼 수 없도록 하는 조치. -데이터의 유효성을 유지하면서 개인 식별 가능성을 제거하는 것이 목표. 1)식별자(Identifier) 속성자 (Attribute value) 식별자: 개인또는 개인과 관련된 사물에 고유하게 부여된 값 또는 이름으로 데이터셋에 포함된 식별자는 원칙적으로 삭제조치, 데이터 이용 목적상 필요한 식별자는 비식별 조치 후 활용. 예시) 고유식별정보( 주민등록번호, 여권번호) 성명, 상세주소, 날짜정보(생일, 기념일 자격등 취득일 등), 전화번호, 식별코드(아이디, 사원번호), 기타 유일 식별번호( 군번, 개인사업자의 사업자 등록번호) 속.. 2024. 3. 21.
[빅데이터 분석 기사] 융합 데이터베이스 설계! 데이터 표준화, 모델링 (4) 1. 융합 데이터베이스 설계 데이터 유형과 의미 파악하여 활용 목적별 융합 DB 설계. 구조화된 형태로 수집, 저장된 데이터 의미 파악하여 해당 데이터 활용할 수 있는 융합 DB로 재구성. 활용 업무데이터 요구사항 분석, 데이터 표준화 활동 및 모델링 과정 수행 필요 1) 요구사항 분석 -업무 활용 목적과 방향 파악, 어떤 데이터 속성이 필요한지 파악 -필요한 데이터 항목, 개인정보, 민감정보 포함 여부 식별 2) 데이터 표준화와 모델링 수행 표준코드, 표준 용어, 데이터 도메인 등 정의. 수집된 데이터로부터 엔티티와 애트리부트 추출하여 엔티티 간의 관계 정의 하는 개념적 설계와 관계형 스키마 작성하는 논리적 설계 수행. 개념적 설계 수행: 엔티티, 애트리부트 추출하여 엔티티간의 관계 정의하고 ER 다이.. 2024. 3. 21.
[빅데이터 분석 기사] 대규모 데이터 분산 처리를 위한 하둡! HDFS, 맵리듀스 (3) 1. 분산 파일 시스템 1.1 하둡 분산파일 시스템 (HDFS: Hadoop Distributed File System) 하둡의 기본파일시스템, 대용량 데이터를 안정적으로 저장하기 위해 설계된 분산 파일 시스템. 1.2 하둡 -대규모 데이터 셋을 분산처리하기 위한 오픈소스 소프트웨어 프레임워크, 분산 환경 컴퓨팅을 목표로 시작한 프로젝트로 분산처리를 위한 파일 시스템. -대용량 파일을 클러스터에 여러 블록으로 분산 저장, 블록들은 마지막 블록 제외하고 모두 같은 크기(기본 64MB) -마스터 하나와 여러 개 슬레이브로 클러스터링 되어 구성 -데이터 손상 방지하기 위해 데이터 복제기법 사용. -대용량 파일 저장할 수 있는 기능 제공하는 분산파일 시스템과 저장된 데이터를 쉽고 빠르게 분석할 수 있는 컴퓨팅 .. 2024. 3. 20.
[빅데이터 분석 기사] 데이터 유형 및 속성 파악, 데이터 수집 및 전환(2) 1. 데이터 유형 및 속성 파악 1.1 데이터 수집 세부 계획 작성 -데이터 선정 이후 데이터 유형, 위치, 데이터 저장방식, 데이터 수집 기술, 데이터의 보안사항 등 구체적으로 작성하는 활동. -데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용 등을 조사하여 세부 계획서 작성. 1.2 데이터 유형과 위치 및 비용 -데이터 유형: 정형, 반정형, 비정형으로 나뉨. -데이터 위치: 수집 데이터 원천에 따라 내부데이터와 외부데이터로 구분 -데이터 확보 비용: 비용 산정시 데이터 크기, 수집 주기, 수집 기술, 수집 방식, 대상 데이터의 가치 고려. 유형 특징 종류 정형데이터 정형화된 스키마를 가진 데이터 RDB, File 반정형데이터 메타구조를 가지는 데이터 HTML, XML, JSON, RSS, .. 2024. 3. 20.
[빅데이터 분석 기사] 데이터 유형 별 데이터 수집 방법! 데이터 수집 및 전환 (1) 1. 데이터 수집 데이터 처리 시스템에 들어갈 데이터를 모으는 과정 여러 장소에 있는 데이터를 한 곳으로 모으는 것. -비즈니스 도메인정보: 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보 습득, 도메인 전문가 인터뷰를 통해 데이터 종류, 유형 특징 정보 습득 -원천데이터 정보: 데이터 분석에 필요한 원천데이터의 수집 가능성, 데이터의 보안, 정확성탐색, 데이터 수집 난이도, 수집 비용 등 기초자료 수집. 1.1 내 외부 데이터 -내부데이터: 조직 내부 서비스 시스템, 네트워크, 서버장비, 마케팅 관련 시스템으로부터 생성되는 데이터 ->실시간 수집하여 분석 -외부데이터: 다양한 소셜 데이터, 특정 기관 데이터 , M2M데이터, LOD(Linked Open Data) 등의 데이터. ->.. 2024. 3. 20.