주요 컨텐츠로 이동

Delta Lake UniForm

오픈 데이터 레이크하우스를 위한 형식에 구애받지 않는 고성능 스토리지

Delta Lake UniForm은 레이크하우스에 있는 모든 형식과 유형의 데이터를 통합하여 모든 분석 및 AI 워크로드를 지원합니다.

여러 형식의 데이터 처리

오픈 데이터 형식에 관계없이 기존 분석 및 AI 도구를 사용할 수 있습니다. UniForm은 여러 형식을 자동으로 즉시 변환하므로 소스 데이터의 단일 복사본을 유지하면서 선호하는 Iceberg나 Hudi 클라이언트를 사용하여 Unity Catalog 엔드포인트를 통해 Delta 테이블을 읽을 수 있습니다. UniForm을 사용하면 공급업체에 종속되지 않고 데이터의 이동성을 유지할 수 있습니다.

에코시스템 전반에서 연결

Delta Lake는 방대한 커넥터 에코시스템을 갖추고 있으며 다양한 프레임워크와 언어를 지원합니다. Delta Sharing은 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 데이터 위치에 구애받지 않고 다른 조직과 간편하게 데이터를 공유할 수 있게 해줍니다. Unity Catalog와 기본적으로 통합되기 때문에 전사적으로 공유 데이터를 중앙에서 관리하고 감사할 수 있습니다. 이렇게 하면 공급업체, 파트너와 신뢰를 바탕으로 데이터 자산을 공유할 수 있어 비즈니스 조율에 도움이 되고, 동시에 보안과 규정 준수 요구 사항에도 부합할 수 있습니다. 또한 주요 툴, 플랫폼과 통합되므로 사용자가 선택한 툴에서 공유 데이터를 시각화, 쿼리, 보강하고 관리할 수 있습니다.

"M Science에서는 Delta Lake UniForm을 사용하여 Delta 또는 Iceberg를 지원하는 모든 엔진에서 쿼리할 수 있는 단일 데이터 복사본을 유연하게 작성할 수 있게 되었습니다. 이는 결과적으로 비용을 절감하고 가치 실현 시간을 단축하는 데 핵심적인 역할을 했습니다."

— Ben Tallman, 최고 기술 책임자(CTO), M Science
M Science logo

빠르고 안정적인 성능

Delta Lake는 다른 저장소 형식에 비해 최대 1.7배 더 빠른 데이터 로드와 쿼리 실행을 통해 엄청난 규모와 속도를 제공합니다. 10,000곳 이상의 고객사가 프로덕션에 사용하는 Delta Lake는 단일 파이프라인에서 초당 4천만 건 이상의 이벤트를 처리할 수 있도록 확장되었습니다. Delta Lake는 하루에 5엑사바이트 이상을 처리합니다.

Delta Lake 테이블에서 UniForm을 사용하도록 설정하면 다른 형식의 메타데이터를 작성해도 쿼리 성능이 저하되지 않습니다. UniForm 테이블은 네이티브 엔진의 자체 형식과 동등한 수준의 읽기 성능을 제공합니다.

최고의 가격 대비 성능을 위한 AI 기반

Databricks Data Intelligence Platform은 사용 패턴에 따라 데이터를 최적화합니다. Databricks용 Data Intelligence Engine인 DatabricksIQ에서 제공하는 AI 기반 성능 향상 기능으로 데이터를 자동으로 관리, 구성, 조정할 수 있습니다.

유연한 클러스터링은 파티션 작업에서 흔히 발생하는 문제들을 걱정하지 않아도 되며, 고카디널리티를 가진 열도 파티션할 수 있고, 파티션 열을 변경할 때 비용이 많이 드는 재작성 과정 없이도 최적으로 조정되고 분할된 테이블을 제공합니다. 결과적으로 최소한의 설정으로도 최적으로 클러스터링된 테이블을 빠르게 얻을 수 있습니다.

예측 최적화는 최적의 성능과 가격을 위해 데이터를 자동으로 최적화합니다. 데이터 사용 패턴을 학습하고 최적화를 위한 적절한 계획을 수립한 다음, 고도로 최적화된 서버리스 인프라에서 최적화 작업을 실행합니다.

"Databricks의 예측 최적화 기능은 Unity Catalog 스토리지를 지능적으로 최적화하여 연간 스토리지 비용을 50% 절감하는 동시에 쿼리 속도를 2배 이상 높였습니다. 이는 가장 크고 가장 많이 액세스되는 테이블의 우선순위를 정하는 방법을 학습했습니다. 그리고 이 모든 작업을 자동으로 수행하여 팀의 소중한 시간을 절약해 주었습니다."

— Shu Li, 데이터 엔지니어링 책임자, Anker
Anker Innovations

대규모 보안 및 거버넌스

Delta Lake는 데이터 거버넌스, 기능에 세분화된 액세스 관리를 활용하여 리스크를 줄입니다. 이것은 보통 데이터 레이크로는 불가능한 일입니다. 데이터 레이크에 보관된 데이터를 빠르고 정확하게 업데이트하여 GDPR과 같은 규제를 준수할 수 있고, 감사 로깅을 통해 개선된 데이터 거버넌스를 유지관리할 수 있습니다. 이러한 기능은 Databricks에서 레이크하우스용 최초의 멀티클라우드 데이터 카탈로그인 Unity Catalog의 일부분으로 기본 통합 및 강화됩니다.

자동화되고 신뢰할 수 있는<br />데이터 엔지니어링

Delta Live Table을 사용하면 데이터 엔지니어링이 간단해집니다. Delta Lake에서 최신 고품질 데이터에 적합한 데이터 파이프라인을 빌드하여 관리할 손쉬운 방법을 소개합니다. 이 테이블은 선언적 파이프라인 개발, 데이터 안정성 개선 및 클라우드 규모 프로덕션 작업을 통해 레이크하우스의 기초를 구축하도록 도와 ETL 개발과 관리를 간소화하여 데이터 엔지니어링 팀에 큰 도움이 되어줍니다.

사용 사례

기존 데이터를 활용한 BI

데이터 레이크에서 직접 비즈니스 워크로드를 실행하여 비즈니스에 즉각적인 인사이트를 얻을 수 있도록 최신 실시간 데이터를 데이터 애널리스트가 쿼리할 수 있는 상태로, 바로 이용할 수 있게 제공합니다. Delta Lake를 사용하면 데이터 레이크 수준의 비용으로 데이터 웨어하우징 성능을 제공하는 멀티클라우드 레이크하우스 아키텍처를 운영해 기존 클라우드 데이터 웨어하우스 대비 최대 6배 더 나은 가격/성능으로 SQL 워크로드를 처리할 수 있습니다.

자세히

배치와 스트리밍 통합

간결한 단일 아키텍처에서 배치와 스트리밍 작업을 모두 실행함으로써 복잡하고 중복된 시스템과 운영상의 문제를 피할 수 있습니다. Delta Lake의 경우 테이블 하나가 배치 테이블과 스트리밍 소스 및 싱크를 겸합니다. 스트리밍 데이터 수집, 과거 백필(backfill)) 배치 처리와 대화형 쿼리 모두 바로 사용할 수 있으며 Spark Structured Streaming과 직접 통합됩니다.

규제 요구사항에 부합

Delta Lake는 형식이 잘못된 데이터 수집 문제를 없애고 규제 준수를 위한 데이터 삭제의 어려움을 완화하며 변경 데이터 캡처를 위한 데이터 수정 문제도 없애줍니다. Delta Lake는 데이터 레이크에서 ACID 트랜잭션을 지원하여 모든 작업이 완전히 성공하거나 나중에 다시 시도할 수 있게 완전히 중단되도록 보장합니다.이를 위해 데이터 파이프라인을 새로 만들 필요도 없습니다. 또한 Delta lake는 데이터 레이크에 과거 트랜잭션을 모두 기록하므로 GDPR과 CCPA 등의 규정 준수 표준에 안정적으로 부합하기 위해 데이터의 기존 버전에 액세스하여 이를 활용하기도 간편합니다.

더 자세히 알아보기

Unity Catalog

자세히

Delta Sharing

자세히

DatabricksIQ

자세히

고객

"Databricks는 의료 서비스 부문의 새로운 수요에 부합하기 위해 꼭 필요했던 분석과 운영성 개선은 물론 출시 시간 단축이라는 효과까지 달성했습니다."
– Healthdirect Australia의 Chief Architect, Peter James

자세히

"Databricks와 Delta Lake를 활용하면서 이미 대규모로 데이터를 민주화(democratize)할 수 있게 되었고, 동시에 프로덕션 워크로드 실행 비용을 60% 줄여서 수백만 달러를 절감하는 효과를 거두었습니다."
— YipitData 최고 기술 책임자(CTO) Steve Pulec

자세히

"Delta Lake는 ACID 기능을 제공해 데이터 파이프라인 운영을 간소화하기
때문에 파이프라인 안정성과 데이터 일관성이 좋아집니다. 동시에 캐싱이나 자동 인덱싱과 같은 기능을 이용하면 데이터에 효율적으로, 성능 수준에 맞춰 액세스할 수 있습니다."
— Columbia Sportswear 선임 엔터프라이즈 데이터 관리자 Lara Minor

자세히

"Delta Lake 덕분에 데이터 파이프라인 관리에 간소한 방식으로 접근할 수 있게 되었습니다. 이 덕분에 운영 비용은 절감하면서 동시에 다운스트림 분석과 데이터 사이언스의 인사이트 도출 시간(time-to-insight)은 짧아졌어요."
— Viacom18 디지털 변혁 및 기술 사업부 AVP(Assistant Vice President) Parijat Dey

자세히