본문으로 이동

데이터 레이크

위키백과, 우리 모두의 백과사전.
데이터 레이크에서 사용할 수 있는 데이터베이스의 예(이 경우 구조화된 데이터)

데이터 레이크(data lake)는 일반적으로 개체 Blob 또는 파일과 같은 자연(natural)/원시(raw) 형식으로 저장된 데이터의 시스템 또는 저장소이다.[1] 데이터 레이크는 일반적으로 소스 시스템 데이터, 센서 데이터, 소셜 데이터[2] 등의 원시 복사본과 보고, 시각화, 고급 분석 및 기계 학습과 같은 작업에 사용되는 변환된 데이터를 포함하는 단일 데이터 저장소이다. 데이터 레이크에는 관계형 데이터베이스(행 및 열), 반정형 데이터(CSV, 로그, XML, JSON), 비정형 데이터(이메일, 문서, PDF) 및 바이너리 데이터(이미지, 오디오, 비디오)의 정형 데이터가 포함될 수 있다.[3] 데이터 레이크는 "온프레미스"(조직의 데이터 센터 내) 또는 "클라우드"(아마존, 마이크로소프트, 오라클 클라우드 또는 구글과 같은 공급업체의 클라우드 서비스 사용)에 구축될 수 있다.

배경

[편집]

당시 펜타호(Pentaho)의 최고 기술 책임자였던 제임스 딕슨은 원시 데이터에서 파생된 흥미로운 속성을 저장하는 소규모 저장소인 데이터 마트와 대조하기 위해 2011년에 이 용어를 만들었다.[4] 데이터 레이크를 홍보하면서 그는 데이터 마트에는 정보 사일로화와 같은 몇 가지 고유한 문제가 있다고 주장했다.[5] 프라이스워터하우스쿠퍼스(PwC)는 데이터 레이크가 "데이터 사일로를 종식시킬 수 있다"고 말했다.[6] 데이터 레이크에 대한 연구에서 그들은 기업이 "분석을 위한 데이터를 추출하여 단일 하둡 기반 저장소에 배치하기 시작했다"고 언급했다.

[편집]

많은 기업에서는 구글 클라우드 스토리지아마존 S3와 같은 클라우드 스토리지 서비스나 아파치 하둡 분산 파일 시스템(HDFS)과 같은 분산 파일 시스템을 사용한다.[7] 데이터 레이크 개념에 대한 학문적 관심이 점차 높아지고 있다. 예를 들어 카디프 대학의 퍼스널 데이터레이크(Personal DataLake)는 개인 데이터를 수집, 정리, 공유하는 단일 지점을 제공하여 개별 사용자의 빅 데이터를 관리하는 것을 목표로 하는 새로운 유형의 데이터 레이크이다.[8]

이전 데이터 레이크(Hadoop 1.0)는 배치 중심 처리(맵리듀스) 기능이 제한되어 있었고 이와 관련된 유일한 처리 패러다임이었다. 데이터 레이크와 상호 작용하려면 지도 축소 및 아파치 피그, 아파치 스파크아파치 하이브(원래는 배치 지향적임)와 같은 상위 수준 도구를 사용하여 자바에 대한 전문 지식이 있어야 했다.

비판

[편집]

잘 관리되지 않은 데이터 레이크는 농담 삼아 데이터 늪이라고 불린다.[9]

2015년 6월, 데이비드 니들은 "이른바 데이터 레이크"를 "빅 데이터를 관리하는 가장 논란이 많은 방법 중 하나"라고 특징지었다.[10] PwC 또한 그들의 연구에서 모든 데이터 레이크 이니셔티브가 성공적이지는 않다고 신중하게 언급했다. 그들은 캠브리지 시맨틱스의 CTO인 숀 마틴을 인용했다.

우리는 고객들이 빅 데이터 묘지를 만들고, 모든 것을 HDFS에 덤프하고, 나중에 무언가를 하기를 바라는 것을 봅니다. 하지만 그들은 무엇이 있는지 잊어버리게 됩니다. 주요 과제는 데이터 레이크를 만드는 것이 아니라, 그것이 제공하는 기회를 활용하는 것입니다.[6]

그들은 성공적인 데이터 레이크를 구축하는 기업들이 조직에 중요한 데이터와 메타데이터를 파악하면서 점진적으로 레이크를 성숙시킨다고 설명한다.

또 다른 비판은 데이터 레이크라는 용어가 너무 많은 방식으로 사용되어 유용하지 않다는 것이다.[11] 예를 들어, 데이터 웨어하우스가 아닌 모든 도구나 데이터 관리 관행; 특정 구현 기술; 원시 데이터 저장소; ETL 오프로드의 허브; 또는 셀프 서비스 분석을 위한 중앙 허브를 지칭하는 데 사용될 수 있다.

데이터 레이크에 대한 비판은 타당하지만, 많은 경우 다른 데이터 프로젝트에도 적용된다.[12] 예를 들어, 데이터 웨어하우스의 정의 또한 가변적이며, 모든 데이터 웨어하우스 노력이 성공적이었던 것은 아니다. 다양한 비판에 대한 대응으로 맥킨지는[13] 데이터 레이크가 기술적 결과가 아니라 기업 내에서 비즈니스 가치를 제공하기 위한 서비스 모델로 보아야 한다고 언급했다.

데이터 레이크하우스

[편집]

데이터 레이크하우스는 데이터 레이크처럼 다양한 원시 데이터 형식을 수집할 수 있지만, ACID 트랜잭션을 제공하고 데이터 웨어하우스처럼 데이터 품질을 강제하는 하이브리드 접근 방식이다.[14][15] 데이터 레이크하우스 아키텍처는 트랜잭션 지원, 스키마 강제, 거버넌스 및 다양한 워크로드 지원과 같은 데이터 웨어하우스 기능을 추가하여 데이터 레이크의 여러 비판을 해결하려고 시도한다. 오라클에 따르면, 데이터 레이크하우스는 "데이터 레이크의 비정형 데이터의 유연한 저장과 데이터 웨어하우스의 관리 기능 및 도구"를 결합한다.[16]

각주

[편집]
  1. “The growing importance of big data quality”. 《The Data Roundtable》. 2016년 11월 21일. 2020년 6월 1일에 확인함. 
  2. “What is a data lake?”. 《aws.amazon.com》. 2020년 10월 12일에 확인함. 
  3. Campbell, Chris. “Top Five Differences between DataWarehouses and Data Lakes”. 《Blue-Granite.com》. 2016년 3월 14일에 원본 문서에서 보존된 문서. 
  4. Woods, Dan (2011년 7월 21일). “Big data requires a big architecture”. 《Forbes》. 
  5. Dixon, James (2010년 10월 14일). “Pentaho, Hadoop, and Data Lakes”. 《James Dixon’s Blog》. James Dixon. 2015년 11월 7일에 확인함. If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples. 
  6. Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of unsiloed data (PDF) (보고서). Technology Forecast: Rethinking integration. PricewaterhouseCoopers. 
  7. Tuulos, Ville (2015년 9월 22일). “Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances”. 《NextRoll》. 
  8. Walker, Coral; Alrehamy, Hassan (2015). 〈Personal Data Lake with Data Gravity Pull〉. 《2015 IEEE Fifth International Conference on Big Data and Cloud Computing》. 160–167쪽. doi:10.1109/BDCloud.2015.62. ISBN 978-1-4673-7183-4. S2CID 18024161. 
  9. Olavsrud, Thor (2017년 6월 8일). “3 keys to keep your data lake from becoming a data swamp” (영어). 《CIO》. 2021년 1월 4일에 확인함. 
  10. Needle, David (2015년 6월 10일). “Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques”. Enterprise Apps. 《eWeek》. 2015년 11월 1일에 확인함. Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes. [깨진 링크(과거 내용 찾기)]
  11. “Are Data Lakes Fake News?”. 《Sonra》. 2017년 8월 8일. 2017년 8월 10일에 확인함. 
  12. Belov, Vladimir; Kosenkov, Alexander N.; Nikulchev, Evgeny (2021). 《Experimental Characteristics Study of Data Storage Formats for Data Marts Development within Data Lakes》. 《Applied Sciences》 11. 8651쪽. doi:10.3390/app11188651. 
  13. “A smarter way to jump into data lakes”. 《McKinsey》. 2017년 8월 1일. 
  14. What is a Data Lakehouse? | Databricks
  15. What is a Data Lakehouse? | Snowflake
  16. What is a Data Lakehouse? | Oracle