데이터분산처리1 [빅데이터 분석 기사] 대규모 데이터 분산 처리를 위한 하둡! HDFS, 맵리듀스 (3) 1. 분산 파일 시스템 1.1 하둡 분산파일 시스템 (HDFS: Hadoop Distributed File System) 하둡의 기본파일시스템, 대용량 데이터를 안정적으로 저장하기 위해 설계된 분산 파일 시스템. 1.2 하둡 -대규모 데이터 셋을 분산처리하기 위한 오픈소스 소프트웨어 프레임워크, 분산 환경 컴퓨팅을 목표로 시작한 프로젝트로 분산처리를 위한 파일 시스템. -대용량 파일을 클러스터에 여러 블록으로 분산 저장, 블록들은 마지막 블록 제외하고 모두 같은 크기(기본 64MB) -마스터 하나와 여러 개 슬레이브로 클러스터링 되어 구성 -데이터 손상 방지하기 위해 데이터 복제기법 사용. -대용량 파일 저장할 수 있는 기능 제공하는 분산파일 시스템과 저장된 데이터를 쉽고 빠르게 분석할 수 있는 컴퓨팅 .. 2024. 3. 20. 이전 1 다음