한 마디로 대량의 데이터를 분석하기 좋게 체계적으로 보관해놓는 데이터의 창고다. 여기서 중요한 것은 마구잡이로 넣어놓거나 적당히 깨끗해 보이도록 넣어놓는 창고가 아니라 '분석하기 좋게 체계적으로' 넣어놓는다는 말이다. 당연히 여기에 들어가 있는 데이터들은 분석을 위한 것이니만큼 정제되고 가공된 것들이다. 가공 안 된 들쑥날쑥 데이터들을 모아 놓은 창고는 여기가 아니라 데이터 레이크(Data Lake)이다.
이러한 데이터 웨어하우스의 존재 목적은 기존 데이터를 활용해 더 나은 정보를 제공하고, 데이터의 품질을 향상시키는 한편 비용과 자원관리의 효율성을 높이는 것이다. 데이터 웨어하우스의 주요 특징 4가지는 다음과 같다.
- 주제 지향(Subject Oriented)
- 정보를 이용하는 사람의 관점에서 봤을 때, 업무 중심이 아닌 주제 중심으로 데이터를 조직화한다. EX. 고객 거래처, 상품, 활동 등. 또한 의사결정에 필요없는 데이터는 저장하지 않는다.
- 통합(Integrated)
- 데이터 웨어하우스에서는 보관되는 데이터를 활용하기 좋은 형태로 변환할 필요가 있으며, 표준화 기준을 설정, 적용함으로써 데이터를 통합한다. 이를 위해서는 여러가지 조건을 고려해야 하는데, 예시는 아래와 같다.
- 데이터 이름 작성 방법
- 일관된 변수 측정
- 일관된 코드와 구조
- 일관된 물리적 특성
- 데이터 웨어하우스에서는 보관되는 데이터를 활용하기 좋은 형태로 변환할 필요가 있으며, 표준화 기준을 설정, 적용함으로써 데이터를 통합한다. 이를 위해서는 여러가지 조건을 고려해야 하는데, 예시는 아래와 같다.
- 시계열(Time Variant)
- 데이터 웨어하우스에는 시간별로 데이터 버전들이 저장되어 있다. 과거의 데이터와 현재의 데이터가 모두 존재한다는 것이다. 데이터 웨어하우스의 데이터들은 즉각적인 데이터의 변동성을 보기 위해 저장되는 것이 아니라, 가공된 정보로써 의사결정을 지원하는 데 그 목적이 있다. 따라서 데이터는 시간에 따라 수시로 갱신되거나 변경되지 않는다.
- 비휘발성(Nonvolatile)
- 데이터 웨어하우스의 데이터들로 수행할 수 있는 작업은 딱 두 가지다. 첫 번째는 데이터 로딩, 두 번째는 데이터 접근, 즉 엑세스(access)이다. 위에서 나오는 특성 시계열과 연관되는 부분이다. 데이터의 즉각적인 갱신이나 변경, 삭제 등은 이뤄지지 않으며, 데이터 웨어하우스에 데이터가 들어온 순간 그건 일종의 '보관용 버전'으로 인식되어 특별한 이유가 없는 한 데이터 웨어하우스 안에 안전히 보관된다.
'What is □?' 카테고리의 다른 글
17. 데이터 마트(Data mart)란 무엇인가? (0) | 2021.05.22 |
---|---|
16_MTV/MVT 패턴이란 무엇인가? (0) | 2021.05.19 |
14_데이터 파이프라인(Data Pipeline)이란? (0) | 2021.05.15 |
13_데이터 레이크(Data Lake)란 무엇인가? (0) | 2021.05.12 |
12_A/B 테스트란 무엇인가? (0) | 2021.05.12 |