상세 컨텐츠

본문 제목

15. Hadoop (하둡)

본문

http://mirror.navercorp.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz

 

 

하둡(Hadoop)은 대규모 데이터 집합을 처리하고 저장하기 위한 오픈 소스 프레임워크입니다. 하둡은 분산 컴퓨팅 환경에서 데이터를 효과적으로 처리할 수 있도록 설계되었습니다. 하둡은 여러 컴퓨터 노드에 데이터를 분산하여 처리하고 저장하는데 사용되며, 이러한 구조는 큰 규모의 데이터 처리와 분석에 적합한 방식입니다.

 

O 하둡의 주요 구성 요소

 

1) Hadoop Distributed File System (HDFS): 하둡 분산 파일 시스템으로, 대용량의 데이터를 블록 단위로 저장하고 분산하여 관리합니다. 데이터의 안정성과 가용성을 보장하며, 매우 큰 파일을 효과적으로 저장할 수 있습니다.

 

2) MapReduce: 데이터 처리를 위한 프로그래밍 모델과 실행 엔진입니다.

Map 단계에서 데이터를 분산 처리하고, Reduce 단계에서 결과를 집계합니다.

MapReduce는 분산 환경에서 병렬 처리를 통해 대규모 데이터를 효과적으로 처리할 수 있도록 도와줍니다.

 

3) YARN (Yet Another Resource Negotiator): 하둡 클러스터 내에서 리소스 관리 및 작업 스케줄링을 담당하는 시스템입니다.

YARN은 여러 응용 프로그램이 클러스터 리소스를 효율적으로 공유하며 실행될 수 있도록 지원합니다.

 

4) Hadoop Ecoystem: 하둡을 보완하고 다양한 데이터 처리 작업을 지원하기 위한 다양한 프로젝트와 도구들이 존재합니다.

이들은 데이터 수집, 저장, 처리, 분석, 시각화 등 다양한 작업을 지원합니다.

예를 들어, Apache Hive, Apache Pig, Apache Spark 등이 있습니다.

 

O 참고

 

-->> Database : 정형 데이터 처리 (구조화된 데이터를 쿼리하고 관리)

-->> Hadoop : 대규모 배치 데이터 파일 처리 (NoSQL 특성)

-->> Hive : SQL 쿼리를 사용하는 대용량 데이터 배치처리 웨어하우스 도구 # 하둡생태계

-->> HBase : 실시간 분산형 NoSQL 데이터베이스 (몽고DB와 경쟁요소) # 하둡생태계

-->> 몽고DB : 비정형 실시간 데이터 처리하는 문서지향 (Document-Oriented) NoSQL 데이터베이스 (HBase와 경쟁요소)

 

 
 

 

'빅데이터 > Big Data Engineering 실습환경구축' 카테고리의 다른 글

14. RStudio  (0) 2023.08.16
13. Windows용 Anaconda (Individual Edition)  (0) 2023.08.16
12. Windows용 Eclipse IDE  (0) 2023.08.16

관련글 더보기

댓글 영역