Dataplex의 데이터 통계 생성

데이터 통계는 데이터를 탐색하고 이해하기 위한 자동화되고 직관적인 방법을 제공합니다. Gemini 대규모 언어 모델을 사용하여 테이블의 메타데이터를 기반으로 쿼리를 생성하고 패턴을 발견하고 데이터 품질을 평가하고 통계 분석을 수행할 수 있습니다.

이 문서에서는 데이터 통계의 주요 기능과 유용한 데이터 탐색을 위해 쿼리 생성을 자동화하는 프로세스를 설명합니다.

데이터 통계 정보

데이터 분석가는 사전 지식이 거의 또는 전혀 없이 새로운 데이터 세트를 탐색할 때 데이터 탐색의 콜드 스타트 문제에 직면합니다. 이 문제에는 데이터 구조, 주요 패턴, 관련 정보에 대한 불확실성이 포함되는 경우가 많습니다. 데이터 통계는 메타데이터 기반의 자동화된 쿼리 생성을 사용하여 데이터 탐색의 콜드 스타트 문제를 해결합니다. 이러한 통계는 정보를 바탕으로 결정을 내리고 데이터에 대한 보다 자세하고 유용한 정보를 확보할 수 있도록 중요한 신호를 제공합니다. 빈 슬레이트로 시작하는 대신 유용한 정보를 제공하는 의미 있는 쿼리로 데이터 탐색을 더 빠르게 시작할 수 있습니다.

데이터 통계를 사용하여 생성된 쿼리는 게시된 프로필 스캔 데이터를 사용하여 그라운딩됩니다. 데이터 통계는 게시된 프로필 스캔 데이터를 사용하여 결과를 제공하는 쿼리를 작성하므로, 효율적이고 안정적으로 정보를 검색할 수 있습니다. 이렇게 하면 데이터 분석 프로세스 속도를 크게 앞당길 수 있으며 보다 명확한 지침과 목적에 따라 데이터를 자세히 살펴볼 수 있습니다.

데이터 통계는 익숙하지 않은 데이터 세트를 탐색하는 데 따르는 일반적인 문제를 해결하는 기본 도구로, 데이터 탐색 중에 정보를 바탕으로 결정을 내리고 패턴을 보다 빠르게 파악할 수 있도록 지원합니다.

통계 실행의 예

다음 기술 메타데이터가 포함된 telco_churn이라는 테이블이 있다고 가정해 보세요.

필드 이름 유형
CustomerID STRING
성별 STRING
장기 근속 INT64
PhoneService STRING
OnlineBackup STRING
종속 항목 BOOLEAN
계약 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

다음은 데이터 통계가 이 테이블에 대해 생성하는 몇 가지 샘플 쿼리입니다.

  • 모든 프리미엄 서비스를 구독하고 50개월 넘게 고객으로 등록된 이력이 있는 고객을 식별합니다.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • 고객 이탈이 가장 많은 인터넷 서비스를 파악합니다.

    SELECT
      InternetService,
      COUNT(DISTINCT customerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 가치가 높은 고객 중에서 이탈률이 높은 고객 세그먼트를 파악합니다.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT customerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

프로필 스캔을 사용한 통계 그라운딩 정보

테이블에 데이터 프로필 스캔을 만들 때 스캔 결과를 BigQuery 및 Data Catalog에 게시할 수 있습니다. 데이터 통계는 이 게시된 프로필 스캔 데이터를 사용하여 테이블에 대한 보다 정확하고 관련성이 높은 쿼리를 생성합니다.

Google Cloud 콘솔에서 게시된 프로필 스캔 데이터를 볼 수 있습니다. 게시된 프로필 스캔 데이터를 보는 방법에 대한 자세한 내용은 보고 및 모니터링을 참조하세요.

테이블에 게시된 프로필 스캔에 액세스할 수 있으면 이 프로필 스캔을 사용하여 포괄적인 통계를 생성할 수 있습니다. 그렇지 않으면 열 이름과 해당 설명을 기반으로 통계가 공식화됩니다. 이 방법을 사용하면 프로필 스캔 가용성에 관계없이 통계를 받게 됩니다.

프로필 스캔 데이터는 데이터 분포, 데이터 유형, 데이터 세트의 통계 요약에 대한 유용한 정보를 제공합니다. 쿼리가 프로필 스캔 데이터를 통해 그라운딩되므로 데이터 통계는 생성된 쿼리가 유의미한지 확인하고 추가 분석에 도움이 되는 결과를 반환합니다.

프로필 스캔에 대한 자세한 내용은 데이터 프로파일링 정보를 참조하세요.

프로필 스캔을 만들고 게시하는 방법에 대한 자세한 내용은 데이터 프로필 스캔 만들기 및 사용을 참조하세요.

다음 섹션에서는 데이터 통계에서 게시된 프로필 스캔 데이터를 사용하여 쿼리를 그라운딩하는 방법을 설명합니다.

프로필 스캔 데이터 정보

프로필 스캔 데이터는 데이터 세트의 콘텐츠를 설명하는 메타데이터입니다. 여기에는 다음 정보가 포함됩니다.

  • 열의 데이터 유형
  • 최솟값 및 최댓값
  • 값 분포
  • Null 또는 누락된 값
  • 상위 값
  • 고유한 값 및 빈도

데이터 통계는 이 정보를 사용하여 특정 데이터 세트에 맞는 쿼리를 생성하고 의미 있는 정보를 제공합니다.

데이터 통계가 쿼리 그라운딩에 프로필 스캔 데이터를 사용하는 방법

데이터 통계는 프로필 스캔 데이터를 사용하여 데이터 세트 내 실제 데이터 분포와 패턴을 기반으로 하는 쿼리를 작성합니다. 이 프로세스는 다음과 같은 단계로 진행됩니다.

  • 프로필 스캔 데이터를 분석하여 데이터에서 흥미로운 패턴, 트렌드 또는 이상점을 식별합니다.
  • 유용한 정보를 얻기 위해 이러한 패턴, 트렌드, 이상점에 초점을 맞춘 쿼리를 생성합니다.
  • 유의미한 쿼리 결과가 반환되는지 확인하기 위해 프로필 스캔 데이터에 대해 생성된 쿼리를 검증합니다.

데이터 통계의 이점을 극대화하기 위한 팁

그라운딩된 쿼리를 사용하면 정확하고 관련성이 높으며 활용 가능한 정보를 얻을 수 있으므로 더 나은 데이터를 바탕으로 의사 결정을 내릴 수 있습니다. 프로필 스캔 데이터를 사용하여 그라운딩된 쿼리를 최대한 활용하려면 다음 팁을 따르세요.

  • 테이블에 게시된 프로필 스캔 데이터가 최신 상태인지 확인합니다. 이렇게 하면 데이터 통계를 통해 보다 정확하고 관련성 높은 쿼리를 생성할 수 있습니다.
  • 생성된 쿼리를 검토하여 해당 쿼리가 프로필 스캔 데이터로 어떻게 그라운딩되었는지 파악합니다. 이렇게 하면 결과를 해석하고 데이터에 대한 보다 자세하고 유용한 정보를 확보할 수 있습니다.
  • 생성된 쿼리가 관련이 없거나 유용하지 않으면 테이블의 프로필 스캔 설정을 조정하거나 데이터 통계에 추가 컨텍스트를 제공하세요.

가격 책정

Dataplex 데이터 통계 기능은 이 미리보기 중에 무료로 제공됩니다.

제한사항

  • 기본 BigQuery 테이블, BigLake 테이블, 외부 테이블, 뷰에서 데이터 통계를 사용할 수 있습니다.
  • 멀티 클라우드 고객은 다른 클라우드의 데이터를 사용할 수 없습니다.
  • 데이터 통계는 모든 Dataplex 리전에서 사용할 수 있습니다.
  • 데이터 통계는 Geo 또는 JSON 열 유형을 지원하지 않습니다.
  • 통계를 실행할 때마다 매번 쿼리가 표시되는 것은 아닙니다. 보다 흥미로운 쿼리를 생성할 가능성을 높이려면 통계 파이프라인을 다시 시작하세요.
  • 열 수준 액세스 제어(ACL)와 제한된 사용자 권한이 있는 테이블의 경우 테이블의 모든 열에 대한 읽기 액세스 권한이 있으면 통계를 생성할 수 있습니다. 생성된 쿼리를 실행하려면 해당 권한이 있어야 합니다.

시작하기 전에

필수 역할 및 권한

데이터 통계를 생성, 관리, 검색하려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.

생성된 통계에 대한 읽기 전용 액세스 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.

  • 통계를 보려는 BigQuery 테이블이 포함된 프로젝트에 대한 Dataplex DataScan DataViewer(roles/dataplex.dataScanDataViewer)

Dataplex 서비스 계정에 게시된 데이터 프로필 스캔을 읽는 데 필요한 권한이 있는지 확인하려면 관리자에게 프로젝트의 Dataplex 서비스 에이전트에 다음 IAM 역할을 부여해 달라고 요청하세요. 이는 BigQuery 테이블에 있는 실제 값을 사용하여 생성된 쿼리를 그라운딩하는 데 도움이 됩니다.

역할 부여에 대한 자세한 내용은 서비스 계정에 대한 액세스 관리를 참조하세요.

커스텀 역할 또는 기타 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

API 사용 설정

데이터 통계를 사용하려면 프로젝트에서 다음 API를 사용 설정해야 합니다.

Gemini API 사용 설정에 대한 자세한 내용은 Google Cloud 프로젝트에서 Gemini Code Assist 활성화를 참조하세요.

BigQuery 테이블의 통계 생성

BigQuery 테이블에 대해 통계를 생성하려면 Dataplex 검색을 사용하여 Dataplex의 테이블 항목에 액세스해야 합니다.

  1. Google Cloud 콘솔에서 Dataplex 검색 페이지로 이동합니다.

    Dataplex 검색으로 이동

  2. Dataplex에서 테이블 항목을 검색합니다.

  3. 통계 탭을 클릭합니다. 탭이 비어 있는 경우 이 테이블의 통계가 아직 생성되지 않았음을 의미합니다.

  4. 통계 파이프라인을 트리거하려면 통계 생성을 클릭합니다.

    통계가 채워지는 데 5~10분이 걸립니다.

  5. 통계 탭에서 생성된 쿼리와 해당 설명을 살펴봅니다.

  6. 쿼리를 실행하려면 BigQuery에서 열기를 클릭합니다. BigQuery에서 쿼리가 열립니다.

  7. 새로운 쿼리 세트를 생성하려면 통계 생성을 클릭하고 파이프라인을 다시 트리거합니다.

BigQuery 외부 테이블의 통계 생성

Dataplex 데이터 통계는 동일한 Google Cloud 프로젝트에 있는 BigQuery 외부 테이블을 지원합니다. BigQuery 테이블이 다른 Google Cloud 프로젝트의 Cloud Storage에 저장된 데이터를 참조하면 통계 생성이 실패합니다.

BigQuery 외부 테이블에 대한 통계를 생성하려면 이 문서의 BigQuery 테이블의 통계 생성 섹션에 설명된 안내를 따르세요.

BigLake 테이블의 통계 생성

BigLake 테이블에 대한 통계를 생성하려면 다음 단계를 수행하세요.

  1. 프로젝트에 대해 BigQuery Connection API를 사용 설정합니다.

    BigQuery Connection API 사용 설정

  2. BigQuery 연결을 만듭니다. 자세한 내용은 연결 관리를 참조하세요.

  3. 생성된 BigQuery 연결에 해당하는 서비스 계정에 스토리지 객체 뷰어(roles/storage.objectViewer) IAM 역할을 부여합니다.

    서비스 계정의 연결 정보 페이지에서 서비스 계정 ID를 검색할 수 있습니다.

  4. 통계를 생성하려면 이 문서의 BigQuery 테이블의 통계 생성 섹션에 설명된 안내를 따르세요.

다음 단계