IT정보/금융

DWH (Data Warehouse)란?

TechN 2025. 2. 26. 20:06
반응형

1. DWH란?

DWH(Data Warehouse, 데이터 웨어하우스)는 다양한 소스로부터 데이터를 통합, 저장, 분석하기 위한 중앙 저장소입니다.
기업이나 조직에서 대량의 데이터를 효율적으로 저장하고, 의사결정에 활용할 수 있도록 정리된 데이터 시스템입니다.

DWH는 트랜잭션 시스템(OLTP)과 달리, 분석과 보고에 최적화된 데이터 저장소로, 대규모 데이터를 처리하고 비즈니스 인사이트를 제공하는 데 활용됩니다.

2. DWH의 역할

DWH는 기업의 데이터 분석과 의사결정을 지원하는 핵심적인 역할을 합니다.

 

1. 데이터 통합 및 저장

  • 다양한 소스로부터 데이터를 수집하고, 정제하여 중앙 저장소에 저장합니다.

2. 데이터 분석 최적화

  • OLTP 시스템보다 분석 쿼리에 최적화된 구조를 가지고 있습니다.

3. 비즈니스 인텔리전스(BI) 지원

  • 보고서, 대시보드, 데이터 마이닝 등의 분석을 지원하여 조직의 의사결정을 돕습니다.

4. 과거 데이터 저장 및 히스토리 관리

  • 시간이 지나도 데이터가 유지되어, 과거 데이터 분석 및 트렌드 예측이 가능합니다.

3. DWH의 주요 개념

개념 설명
ETL (Extract, Transform, Load) 데이터를 추출(Extract), 변환(Transform), 로드(Load)하는 과정
OLTP (Online Transaction Processing) 실시간 트랜잭션 처리를 위한 데이터베이스
OLAP (Online Analytical Processing) 다차원 데이터 분석을 위한 기술
Fact Table 주요 수치 데이터를 저장하는 테이블
Dimension Table 분석을 위한 기준이 되는 테이블 (예: 고객, 제품, 시간)
Data Mart 특정 부서나 주제별로 구성된 데이터 웨어하우스의 부분 집합

4. DWH의 동작 방식

DWH는 ETL 프로세스를 통해 데이터를 수집하고 분석에 최적화된 형태로 저장합니다.

 

1. 데이터 추출(Extract)

  • 다양한 소스(데이터베이스, 파일, API)에서 데이터를 가져옵니다.

2. 데이터 변환(Transform)

  • 중복 제거, 정제, 데이터 정규화 등의 과정을 거쳐 분석 가능한 데이터로 변환합니다.

3. 데이터 로드(Load)

  • 변환된 데이터를 DWH에 저장하고, OLAP 시스템과 연동하여 분석이 가능하도록 합니다.

5. DWH의 장점과 단점

장점 단점
대량 데이터 처리 및 분석 최적화 초기 구축 비용 및 시간이 많이 듦
다양한 소스로부터 데이터 통합 가능 실시간 데이터 처리가 어려울 수 있음
데이터 품질 향상 (정제 및 변환 과정 포함) 유지보수 및 업데이트에 많은 리소스 필요
OLAP을 활용한 다차원 분석 지원 복잡한 데이터 구조로 인해 학습 곡선이 존재

6. DWH와 다른 데이터 저장소 비교

비교 항목 DWH (Data Warehouse) RDBMS (관계형 DB) Data Lake
목적 데이터 분석 및 BI 지원 트랜잭션 처리 원시 데이터 저장 및 분석
데이터 구조 정제된 구조화 데이터 정형 데이터 저장 정형, 비정형 데이터 모두 저장 가능
처리 방식 배치 처리(ETL) 기반 실시간 트랜잭션 처리 대규모 데이터 저장 및 탐색 중심
사용 사례 비즈니스 인사이트 분석 애플리케이션 데이터 저장 빅데이터 분석 및 머신러닝

7. DWH를 사용할 때 고려할 요소

1. 데이터 소스 및 ETL 과정

  • 데이터를 어떤 소스에서 가져올지, ETL을 어떻게 설계할지를 고려해야 합니다.

2. 데이터 모델링 및 저장 구조

  • Fact Table과 Dimension Table을 어떻게 구성할지 결정해야 합니다.

3. 쿼리 성능 최적화

  • OLAP을 활용한 분석 쿼리 성능을 최적화하는 것이 중요합니다.

8. 정리

  1. DWH는 여러 소스에서 데이터를 통합하여 저장하고, 분석과 의사결정을 지원하는 데이터 저장소이다.
  2. ETL 프로세스를 통해 데이터를 수집, 변환, 로드하며, OLAP 시스템과 연계하여 비즈니스 인사이트를 제공한다.
  3. DWH는 대량 데이터 분석에 최적화되어 있지만, 초기 구축 비용이 높고 실시간 데이터 처리에 한계가 있을 수 있다.
반응형