본문 바로가기

What is □?28

15_데이터 웨어하우스(Data Warehouse)란 무엇인가? 한 마디로 대량의 데이터를 분석하기 좋게 체계적으로 보관해놓는 데이터의 창고다. 여기서 중요한 것은 마구잡이로 넣어놓거나 적당히 깨끗해 보이도록 넣어놓는 창고가 아니라 '분석하기 좋게 체계적으로' 넣어놓는다는 말이다. 당연히 여기에 들어가 있는 데이터들은 분석을 위한 것이니만큼 정제되고 가공된 것들이다. 가공 안 된 들쑥날쑥 데이터들을 모아 놓은 창고는 여기가 아니라 데이터 레이크(Data Lake)이다. 이러한 데이터 웨어하우스의 존재 목적은 기존 데이터를 활용해 더 나은 정보를 제공하고, 데이터의 품질을 향상시키는 한편 비용과 자원관리의 효율성을 높이는 것이다. 데이터 웨어하우스의 주요 특징 4가지는 다음과 같다. 주제 지향(Subject Oriented) 정보를 이용하는 사람의 관점에서 봤을 때, .. 2021. 5. 16.
14_데이터 파이프라인(Data Pipeline)이란? 한 마디로 말하면 언제든지 필요한 데이터를 가져와 꺼내 쓸 수 있도록 데이터를 계속 쌓아두는 파이프를 만드는 것이라고 보면 된다. 한번 파이프를 만들고 나면(배수관 파이프를 생각해보자, 여기서 데이터는 배수관 안으로 흐르는 물이라고 생각하면 된다) 큰 문제가 없는 한(파이프에 구멍이 난다거나) 데이터가 계속 들어와 쌓일 것이다. 웹 크롤링을 통해 데이터를 한 번에 구하고 그 데이터를 활용하는 것도 물론 가능하다. 그러나 그것도 필요한 데이터가 적은 편일 때야 가능한 일이다. 기업에서는 수많은 문제가 발생하며, 그 문제를 해결하기 위해 필요한 데이터도 이미 적재된 데이터들도 까마득하게 많은 경우가 대부분이다. 그런 무식하게 큰 데이터를 필요할 때마다 일일히 모으고, 하나 하나 코드로 정제하고 저장할 수는 .. 2021. 5. 15.
13_데이터 레이크(Data Lake)란 무엇인가? 정제되지 않은 데이터(원시 데이터, raw 데이터라고도 한다)들을 넣어놓은 거대한 데이터 창고이다. 다양한 소스에서 수집된 서로 다른 타입의 데이터(비정형/반정형/정형 데이터 모두 포함)들이 수집된 형태 그대로 데이터 레이크에 저장되며, 이는 정제 과정을 거쳐 분석하기 좋은 형태로 데이터가 저장되는 데이터 웨어하우스(Date warehouse)와의 차이점이다. 데이터 레이크를 효율적으로 활용하기 위해서는 사용자(클라이언트가 아닌 데이터 관리자, 데이터 사이언티스트, 엔지니어, 개발자 등)가 언제든지 데이터를 사용하고 접근할 수 있도록 지속적인 유지 관리가 필수다. 적절한 관리가 이루어지지 않을 경우 비용이 많이 드는데 데이터 관리는 어려워지고, 사용자가 데이터에 접근하기도 힘든 총체적 난국이 발생할 수 .. 2021. 5. 12.
12_A/B 테스트란 무엇인가? 마케팅과 웹 분석에서 새로운 웹 사이트가 기존 사이트에 비해 좋은지 정량적으로 평가하는 방법이다. 해당 웹 사이트 방문자를 임의로 두 집단으로 나눈 후, 한 집단에게는 수정이나 업데이트 전 기존 사이트를, 다른 집단에게는 새로운 웹 사이트를 보여준 후 어떤 집단이 더 높은 평가를 내리는지를 측정한다. 이름의 A, B는 A 버전과 B 버전이라는 느낌으로 생각하면 된다. 버전이 붙는 이유는 새로운 사이트와 기존 사이트가 거의 동일하기 때문이다. A/B 테스트에서는 사용자의 행동에 영향을 미칠 수 있는 한 가지 변형을 제외한 모든 부분을 동일하게 유지하는 것이 원칙이다. 자세한 A/B 테스트 진행 과정은 다음과 같다. 조사 수행 구글 애널리틱스나 설문조사 등 분석 도구를 사용하여 웹 사이트를 분석, 방문자의 .. 2021. 5. 12.