본문 바로가기
What is □?

13_데이터 레이크(Data Lake)란 무엇인가?

by 전봇대파괴자 2021. 5. 12.

 

정제되지 않은 데이터(원시 데이터, raw 데이터라고도 한다)들을 넣어놓은 거대한 데이터 창고이다.

다양한 소스에서 수집된 서로 다른 타입의 데이터(비정형/반정형/정형 데이터 모두 포함)들이 수집된 형태 그대로 데이터 레이크에 저장되며, 이는 정제 과정을 거쳐 분석하기 좋은 형태로 데이터가 저장되는 데이터 웨어하우스(Date warehouse)와의 차이점이다.

 

데이터 레이크를 효율적으로 활용하기 위해서는 사용자(클라이언트가 아닌 데이터 관리자, 데이터 사이언티스트, 엔지니어, 개발자 등)가 언제든지 데이터를 사용하고 접근할 수 있도록 지속적인 유지 관리가 필수다. 적절한 관리가 이루어지지 않을 경우 비용이 많이 드는데 데이터 관리는 어려워지고, 사용자가 데이터에 접근하기도 힘든 총체적 난국이 발생할 수 있다. 이런 쓸모없는 데이터 레이크를 '데이터 늪(datat swamp)'이라고 한다.