15. Hadoop (하둡)

DX (Data Transformation)/Big Data Engineering 실습환경구축

by datasa 2023. 8. 16. 15:31

http://mirror.navercorp.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz

하둡(Hadoop)은 대규모 데이터 집합을 처리하고 저장하기 위한 오픈 소스 프레임워크입니다. 하둡은 분산 컴퓨팅 환경에서 데이터를 효과적으로 처리할 수 있도록 설계되었습니다. 하둡은 여러 컴퓨터 노드에 데이터를 분산하여 처리하고 저장하는데 사용되며, 이러한 구조는 큰 규모의 데이터 처리와 분석에 적합한 방식입니다.

O 하둡의 주요 구성 요소

1) Hadoop Distributed File System (HDFS): 하둡 분산 파일 시스템으로, 대용량의 데이터를 블록 단위로 저장하고 분산하여 관리합니다. 데이터의 안정성과 가용성을 보장하며, 매우 큰 파일을 효과적으로 저장할 수 있습니다.

2) MapReduce: 데이터 처리를 위한 프로그래밍 모델과 실행 엔진입니다.

Map 단계에서 데이터를 분산 처리하고, Reduce 단계에서 결과를 집계합니다.

MapReduce는 분산 환경에서 병렬 처리를 통해 대규모 데이터를 효과적으로 처리할 수 있도록 도와줍니다.

3) YARN (Yet Another Resource Negotiator): 하둡 클러스터 내에서 리소스 관리 및 작업 스케줄링을 담당하는 시스템입니다.

YARN은 여러 응용 프로그램이 클러스터 리소스를 효율적으로 공유하며 실행될 수 있도록 지원합니다.

4) Hadoop Ecoystem: 하둡을 보완하고 다양한 데이터 처리 작업을 지원하기 위한 다양한 프로젝트와 도구들이 존재합니다.

이들은 데이터 수집, 저장, 처리, 분석, 시각화 등 다양한 작업을 지원합니다.

예를 들어, Apache Hive, Apache Pig, Apache Spark 등이 있습니다.

O 참고

-->> Database : 정형 데이터 처리 (구조화된 데이터를 쿼리하고 관리)

-->> Hadoop : 대규모 배치 데이터 파일 처리 (NoSQL 특성)

-->> Hive : SQL 쿼리를 사용하는 대용량 데이터 배치처리 웨어하우스 도구 # 하둡생태계

-->> HBase : 실시간 분산형 NoSQL 데이터베이스 (몽고DB와 경쟁요소) # 하둡생태계

-->> 몽고DB : 비정형 실시간 데이터 처리하는 문서지향 (Document-Oriented) NoSQL 데이터베이스 (HBase와 경쟁요소)

'DX (Data Transformation) > Big Data Engineering 실습환경구축' 카테고리의 다른 글

14. RStudio (0)	2023.08.16
13. Windows용 Anaconda (Individual Edition) (0)	2023.08.16
12. Windows용 Eclipse IDE (0)	2023.08.16

데이터 사이언스 아카데미 (Data Science Academy)

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'DX (Data Transformation) > Big Data Engineering 실습환경구축' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바