본문 바로가기

통계 및 데이터분석26

[빅데이터 분석 기사] 빅데이터 분석 데이터 저장 내용 정리! CAP이론, 빅데이터 저장시스템 1. 데이터 저장 1.1 CAP이론 -분산 컴퓨팅 환경의 특징을 일관성, 가용성, 지속성 세가지로 정의됨. -어떤 시스템이든 이 세가지 특성을 동시에 만족하기 어렵다고 설명함. -일관성: 분산 환경에서 모든 노드가 같은 시점에 같은 데이터를 보여줘야 함 -가용성: 일부 노드가 다운되어도 다른 노드에 영향 주지 않아야 함 -지속성: 데이터 전송 중에 일부 데이터를 손실하더라도 시스템은 정상 동작해야 함 1.2 빅데이터 저장시스템 선정을 위한 분석 1) 기능성비교 분석 2) 분석방식 및 환경 -빅데이터 저장방식: 파이시스템 형식으로 저장하는 방식, NoSQL저장시스템 사용하는 방식, RDBMS에 기반을 둔 데이터 웨어하우스방식. -저장방식과 환경을 고려하여 선택 3) 분석대상 데이터 유형 기업데이터인지, 과.. 2024. 4. 17.
[빅데이터 분석 기사] 빅데이터 분석 데이터 저장 간단 정리! 하둡, 맵리듀스 (6) 1. 데이터 적재 1.1 데이터 적재도구 적재할 데이터의 유형과 실시간 처리 여부에 따라 관계형 데이터베이스, HDFS를 비롯한 분산파일시스템, NoSQL저장 시스템에 데이터를 적재할 수 있음. -수집된 데이터를 저장시스템에 적재시 Fluented, Lume, Scrivem Logstash와 같은 데이터 수집 도구들을 이용해 적재하는 방법도 있음. 1) 데이터 수집 도구를 이용한 데이터 적재 2) NoSQL DBMS가 제공하는 도구를 이용한 데이터 적재 -수집한 데이터가 CSV 등의 텍스트 데이터라면 mongoimport와 같은 적재도구를 사용하여 데이터 적재 가능. -로그 수집 도구를 쓰는 방식처럼 데이터 수집 주기등을 환경설정하여 사용할 수는 없음. 3) 관계형 DBMS의 데이터를 NoSQL DBMS.. 2024. 4. 17.
[빅데이터 분석 기사] 데이터 비식별화! 식별자, 속성자 (5) 1. 데이터 비식별화 -개인정보 비식별화: 개인정보를 식별할 수 있는 값들을 몇가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 개인을 알아볼 수 없도록 하는 조치. -데이터의 유효성을 유지하면서 개인 식별 가능성을 제거하는 것이 목표. 1)식별자(Identifier) 속성자 (Attribute value) 식별자: 개인또는 개인과 관련된 사물에 고유하게 부여된 값 또는 이름으로 데이터셋에 포함된 식별자는 원칙적으로 삭제조치, 데이터 이용 목적상 필요한 식별자는 비식별 조치 후 활용. 예시) 고유식별정보( 주민등록번호, 여권번호) 성명, 상세주소, 날짜정보(생일, 기념일 자격등 취득일 등), 전화번호, 식별코드(아이디, 사원번호), 기타 유일 식별번호( 군번, 개인사업자의 사업자 등록번호) 속.. 2024. 3. 21.
[빅데이터 분석 기사] 융합 데이터베이스 설계! 데이터 표준화, 모델링 (4) 1. 융합 데이터베이스 설계 데이터 유형과 의미 파악하여 활용 목적별 융합 DB 설계. 구조화된 형태로 수집, 저장된 데이터 의미 파악하여 해당 데이터 활용할 수 있는 융합 DB로 재구성. 활용 업무데이터 요구사항 분석, 데이터 표준화 활동 및 모델링 과정 수행 필요 1) 요구사항 분석 -업무 활용 목적과 방향 파악, 어떤 데이터 속성이 필요한지 파악 -필요한 데이터 항목, 개인정보, 민감정보 포함 여부 식별 2) 데이터 표준화와 모델링 수행 표준코드, 표준 용어, 데이터 도메인 등 정의. 수집된 데이터로부터 엔티티와 애트리부트 추출하여 엔티티 간의 관계 정의 하는 개념적 설계와 관계형 스키마 작성하는 논리적 설계 수행. 개념적 설계 수행: 엔티티, 애트리부트 추출하여 엔티티간의 관계 정의하고 ER 다이.. 2024. 3. 21.
[빅데이터 분석 기사] 대규모 데이터 분산 처리를 위한 하둡! HDFS, 맵리듀스 (3) 1. 분산 파일 시스템 1.1 하둡 분산파일 시스템 (HDFS: Hadoop Distributed File System) 하둡의 기본파일시스템, 대용량 데이터를 안정적으로 저장하기 위해 설계된 분산 파일 시스템. 1.2 하둡 -대규모 데이터 셋을 분산처리하기 위한 오픈소스 소프트웨어 프레임워크, 분산 환경 컴퓨팅을 목표로 시작한 프로젝트로 분산처리를 위한 파일 시스템. -대용량 파일을 클러스터에 여러 블록으로 분산 저장, 블록들은 마지막 블록 제외하고 모두 같은 크기(기본 64MB) -마스터 하나와 여러 개 슬레이브로 클러스터링 되어 구성 -데이터 손상 방지하기 위해 데이터 복제기법 사용. -대용량 파일 저장할 수 있는 기능 제공하는 분산파일 시스템과 저장된 데이터를 쉽고 빠르게 분석할 수 있는 컴퓨팅 .. 2024. 3. 20.
[빅데이터 분석 기사] 데이터 유형 및 속성 파악, 데이터 수집 및 전환(2) 1. 데이터 유형 및 속성 파악 1.1 데이터 수집 세부 계획 작성 -데이터 선정 이후 데이터 유형, 위치, 데이터 저장방식, 데이터 수집 기술, 데이터의 보안사항 등 구체적으로 작성하는 활동. -데이터 유형, 위치, 크기, 보관방식, 수집주기, 확보비용 등을 조사하여 세부 계획서 작성. 1.2 데이터 유형과 위치 및 비용 -데이터 유형: 정형, 반정형, 비정형으로 나뉨. -데이터 위치: 수집 데이터 원천에 따라 내부데이터와 외부데이터로 구분 -데이터 확보 비용: 비용 산정시 데이터 크기, 수집 주기, 수집 기술, 수집 방식, 대상 데이터의 가치 고려. 유형 특징 종류 정형데이터 정형화된 스키마를 가진 데이터 RDB, File 반정형데이터 메타구조를 가지는 데이터 HTML, XML, JSON, RSS, .. 2024. 3. 20.
[빅데이터 분석 기사] 데이터 유형 별 데이터 수집 방법! 데이터 수집 및 전환 (1) 1. 데이터 수집 데이터 처리 시스템에 들어갈 데이터를 모으는 과정 여러 장소에 있는 데이터를 한 곳으로 모으는 것. -비즈니스 도메인정보: 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보 습득, 도메인 전문가 인터뷰를 통해 데이터 종류, 유형 특징 정보 습득 -원천데이터 정보: 데이터 분석에 필요한 원천데이터의 수집 가능성, 데이터의 보안, 정확성탐색, 데이터 수집 난이도, 수집 비용 등 기초자료 수집. 1.1 내 외부 데이터 -내부데이터: 조직 내부 서비스 시스템, 네트워크, 서버장비, 마케팅 관련 시스템으로부터 생성되는 데이터 ->실시간 수집하여 분석 -외부데이터: 다양한 소셜 데이터, 특정 기관 데이터 , M2M데이터, LOD(Linked Open Data) 등의 데이터. ->.. 2024. 3. 20.
데이터 웨어하우스, 온라인 분석처리 OLAP 데이터 웨어하우스, 온라인 분석처리 OLAP 1. 데이터 웨어하우스 데이터 웨어하우스(Data Warehouse)란 기업 내 각종 데이터를 적절히 뽑아내고 조합해 목적에 맞는 정보, 지식으로 바꿔주는 기술을 말한다. 기존 데이터베이스의 거래처리 중심을 위한 것이 아니라 효과적으로 데이터를 사용할 수 있도록 의사결정을 지원하는 데이터 베이스이며, 데이터뿐 아니라 데이터를 추출해서 이용하는 일련의 과정을 모두 말한다. 주제중심적:기업의 의사결정을 위한 주제 관련 데이터 중심 비휘발성:데이터베이스는 추가 삭제 변경과 같은 갱신작업이 지속적으로 발생하지만 데이터베이스 웨어하우스 경우 로드와 활용만 존재 시간성:시간이라는 관점을 가짐, 시간에 따라 비교 분석 가능 데이터마트는 데이터 웨어하우스와 사용자 사이 중간.. 2023. 6. 29.
데이터베이스, 관리시스템, 데이터모델링이란? 데이터베이스, 관리시스템, 데이터모델링 1. 데이터베이스 필요한 데이터를 결합하여 저장한 집합체를 말하며 데이터를 효율적으로 처리하기 위해 개발되었으며 데이터의 중복성, 종속성 문제를 해결한다. 2. 데이터베이스 관리시스템 데이터베이스 관리시스템은 컴퓨터에 저장되는 데이터베이스를 관리하는 시스템을 말한다. 옛날에는 응용프로그램 별로 데이터가 저장되어있었다. 데이터베이스 관리시스템은 옛날과 비교했을때 보다 더 효율적, 효과적으로 저장 관리를 도와주는 소프트웨어 시스템이다. 장점은 응용프로그램과 데이터간의 독립성이 있다는 점이며 일관성, 보안성으로 데이터 중복을 제거한다는 점이다. 또한 데이터베이스 관리시스템의 기능은 스키마정의, 데이터조작기능, 데이터 제어기능이 있다. 독립성: 응용프로그램과 데이터간의 독.. 2023. 6. 29.
빅데이터 분석 기획 단계, 데이터 구분 빅데이터 분석 기획 단계, 데이터 구분 1. 빅데이터 분석 기획 분석기회 발굴 - 분석기회 구체화 - 마스터 플랜 수립 빅데이터 분석기획은 빅데이터를 기반으로 조직의 문제를 해결하기 위해 분석목표와 방법을 정의하고 계획을 수립하는 것을 말한다. 1) 분석기회 발굴 분석기회 발굴은 어떤 문제를 해결해야하는지 찾는 단계를 말한다. 왜 그 문제를 해결해야하는지 해결하는 것을 통해 어떤 목표를 달성할 수 있는지 기회를 찾는 단계이다. 분석기회를 발굴하는 방법은 전체과정을 본 후 분석을 해야하는 곳을 찾는 탑다운방식, 특정 업무를 정하여 흐름을 분석하여 기회를 발굴하는 바틈업방식, 성공사례를 벤치마킹하여 분석기회를 발굴하는 방식이 있다. 2) 분석기회 구체화 분석기회 구조화하고 분석방안을 구체화하여 활용시나리오를.. 2023. 6. 28.
빅데이터 특징, 빅데이터 분석과 활용사례, 지식탐색법 빅데이터 특징, 빅데이터 분석과 활용사례, 지식탐색법 1. 빅테이터란? 빅데이터 활용은 다양한 형태 데이터를 수집,처리, 저장하여 목적에 맞게 분석해필요한 정보나 지식을 추출해 활용하는 것을 말한다. 빅데이터는 정보기술의 발전에 따른 컴퓨터활용 확대로 인해 많은 정보가 급격하게 확산되는 환경의 변화, IoT 확산에 따른 센서 데이터 증대로 출현하게 되었다. 외부데이터까지 활용하며 비정형 데이터까지 활용하는 것, 급격하게 데이터 양이 늘어났다는 것이 기존의 데이터 분석과 차이점이며, 빅데이터로 기계로 귀납적으로 학습하여 인공지능을 구축할 수 있다. 기존 데이터를 기반으로 결론을 내리기 때문에 의사결정의 질이 높아지며 효율적으로 운영을 할 수 있다. 또한 데이터를 기반으로 새로운 비즈니스와 같은 가치를 창출.. 2023. 6. 28.
GAN(Generative Adversarial Network): 생성적 적대 신경망, GAN의 장점과 활용 GAN(Generative Adversarial Network): 생성적 적대 신경망, GAN의 장점과 활용 1. GAN(Generative Adversarial Network) GAN은 생성적 적대 신경망을 말하며 두 신경망이 계속해서 경쟁하고 학습하여 실제와 같은 결과물을 만드는 신경망을 말한다. 두 모델을 생성자(Generator)와 감별자(Discriminator)이다. GAN모델은 생성자 감별자 이 두모델을 통해 실제와 같은 거짓데이터를 만드는 것이 목적이다. 이안 굿펠로우는 이 두모델을 가짜 지폐를 만들어내는 위조지폐범, 가짜 지폐가 무엇인지 찾아내는 경찰로 비유하였고 이 둘을 통해 실제와 유사한 지폐를 만들어내는 것으로 비유하였다. 1.1) 생성자(Generator) 생성자는 실제와 가까운 .. 2023. 6. 28.