본문 바로가기

전체 글198

17. 데이터 마트(Data mart)란 무엇인가? 필요에 따라 만들어지는 작은 데이터 웨어하우스이다. 금융, 마케팅이나 영업 같은 특정 부서 중심의 요구를 충족시키기 위한 것이기 때문에 전사적 데이터를 다루는 일반 데이터웨어하우스에 비해 목적에 특화되어 있으며 유연성과 접근성이 더 뛰어나다. 일반적으로는 한 기업 내에 복수의 데이터 마트가 존재하며 부서별, 혹은 업무 기능별로 구축되어 있다. 아래의 그림을 참고하자. 2021. 5. 22.
16_MTV/MVT 패턴이란 무엇인가? django에서 사용되는 설계 구조이다. 이름은 조금 다르지만 위에서 나온 MVC와 거의 동일하다. 위의 그림에서처럼 Model, Template, View가 각각 Model, View, Controller에 대응된다. 그러나 아래와 같이 MTV만이 가지는 특징도 존재한다. Model에서 파이썬 코드를 통해 DB를 조작할 수 있다. 이는 ORM(Object Relational Mapping)이라는 것 덕분인데 객체와 관계형 DB를 연결해주며, 파이썬 코드를 SQL 쿼리로 자동 변환해준다. 단 복잡한 쿼리 같은 경우에는 적합하지 않다. django는 자체 django template 문법을 지원하며, 이를 통해 html 파일 내에서 context로 받은 데이터를 활용할 수 있다. View는 Controll.. 2021. 5. 19.
15_데이터 웨어하우스(Data Warehouse)란 무엇인가? 한 마디로 대량의 데이터를 분석하기 좋게 체계적으로 보관해놓는 데이터의 창고다. 여기서 중요한 것은 마구잡이로 넣어놓거나 적당히 깨끗해 보이도록 넣어놓는 창고가 아니라 '분석하기 좋게 체계적으로' 넣어놓는다는 말이다. 당연히 여기에 들어가 있는 데이터들은 분석을 위한 것이니만큼 정제되고 가공된 것들이다. 가공 안 된 들쑥날쑥 데이터들을 모아 놓은 창고는 여기가 아니라 데이터 레이크(Data Lake)이다. 이러한 데이터 웨어하우스의 존재 목적은 기존 데이터를 활용해 더 나은 정보를 제공하고, 데이터의 품질을 향상시키는 한편 비용과 자원관리의 효율성을 높이는 것이다. 데이터 웨어하우스의 주요 특징 4가지는 다음과 같다. 주제 지향(Subject Oriented) 정보를 이용하는 사람의 관점에서 봤을 때, .. 2021. 5. 16.
14_데이터 파이프라인(Data Pipeline)이란? 한 마디로 말하면 언제든지 필요한 데이터를 가져와 꺼내 쓸 수 있도록 데이터를 계속 쌓아두는 파이프를 만드는 것이라고 보면 된다. 한번 파이프를 만들고 나면(배수관 파이프를 생각해보자, 여기서 데이터는 배수관 안으로 흐르는 물이라고 생각하면 된다) 큰 문제가 없는 한(파이프에 구멍이 난다거나) 데이터가 계속 들어와 쌓일 것이다. 웹 크롤링을 통해 데이터를 한 번에 구하고 그 데이터를 활용하는 것도 물론 가능하다. 그러나 그것도 필요한 데이터가 적은 편일 때야 가능한 일이다. 기업에서는 수많은 문제가 발생하며, 그 문제를 해결하기 위해 필요한 데이터도 이미 적재된 데이터들도 까마득하게 많은 경우가 대부분이다. 그런 무식하게 큰 데이터를 필요할 때마다 일일히 모으고, 하나 하나 코드로 정제하고 저장할 수는 .. 2021. 5. 15.