반응형
분산 데이터 처리 프레임워크 Hadoop
1. 하둡 Hadoop
하둡은 대용량 데이터 분산 저장과 처리가 가능한 자바 기반의 오픈소스 프레임워크이다. 다운받아서 사용할 수 있는 오픈소스 프레임워크이자 패키지의 집합이며 저장 처리 분석까지 가능한 프레임워크이다. 분산 데이터 처리 프레임워크는 여러개 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술을 말한다. 대용량 파일을 저장하는 기능을 하는 분산파일시스템과 저장된 분산파일을 분산된 서버의 CPU와 메모리 자원을 통해 분석하는 기능을하는 맵리듀스로 이루어져있다. 또한 하둡은 대용량 데이터 처리와 클라우드 환경에 최적이다. 클라우드 컴퓨팅이란 소프트웨어나 데이터를 내 서버에 두는 것이 아니라 인테넷과 연결된 중앙컴퓨터에 만들어놓고 클라이언트는 접속만하면 이용할 수 있는 시스템을 말하며, 컴퓨팅 자원을 빌려쓰고 사용요금을 지급하는 방식을 말한다. 하둡은 오픈소스이기 때문에 구축하는데 드는 비용이 비교적 저렴하며 여러 대 컴퓨터로 데이터를 분석하고 저장하는 방식을 통해 분석에 필요한 비용과 시간을 단축시켜주었다. 하둡을 통해 대용량의 빅데이터를 분석할 수 있게 되었으며 아래는 하둡 홈페이지이다.
- 하둡 분산 파일 시스템HDFS): 데이터 저장 프레임워크
- 맵리듀스(Map Reduce) :데이터 분산 처리 계산, 데이터를 읽어서 처리
'통계 및 데이터분석' 카테고리의 다른 글
[통계적 연구방법] 상관관계 분석: 엑셀, R 이용하여 상관계수 구하기 (0) | 2023.06.25 |
---|---|
기계학습이란? 지도학습, 비지도학습, 강화학습, SPSS Modeler (0) | 2023.06.25 |
데이터 분석 유형(descriptive, predictive) (0) | 2023.06.25 |
비정형 데이터베이스가 왜 생겼을까? CAP이론, RDBMS, NoSQL (0) | 2023.06.25 |
[통계적 연구방법] 기술통계법: 엑셀과 R로 기술통계량 구하기 (0) | 2023.06.25 |