Gerar insights de dados no Dataplex

Os insights de dados oferecem uma maneira automatizada e intuitiva de explorar e entender seus dados. Ele usa modelos de linguagem grandes do Gemini para gerar consultas com base nos metadados de uma tabela e permite descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.

Neste documento, descrevemos os principais recursos de insights de dados e o processo de automatização da geração de consultas para uma exploração de dados perspicaz.

Sobre os insights de dados

Os analistas de dados enfrentam o problema da inicialização a frio na exploração de dados, ao analisar um novo conjunto de dados com pouco ou nenhum conhecimento prévio. O problema geralmente envolve incertezas sobre a estrutura dos dados, os principais padrões e insights relevantes. Ao usar a geração automatizada de consultas com base em metadados, os insights de dados resolvem o problema de inicialização a frio na exploração de dados. Os insights fornecem dicas valiosas para ajudar você a tomar decisões informadas e receber insights mais profundos sobre seus dados. Em vez de começar do zero, é possível iniciar a exploração de dados mais rapidamente com consultas significativas que oferecem insights valiosos.

As consultas geradas com insights de dados são fundamentadas com dados de verificação de perfil publicados. Os insights de dados usam dados de verificação de perfil publicados para criar consultas que apresentam resultados, oferecendo uma recuperação de informações eficiente e confiável. Isso acelera significativamente o início do processo de análise de dados e permite que você analise os dados com uma direção e um propósito mais claros.

Os insights de dados servem como uma ferramenta de orientação que resolve o desafio comum de navegar por conjuntos de dados desconhecidos, permitindo que você tome decisões informadas e descubra padrões mais rapidamente durante a exploração de dados.

Exemplo de execução de insights

Considere uma tabela chamada telco_churn com os seguintes metadados técnicos:

Nome do campo Tipo
CustomerID STRING
Gênero STRING
Tempo de casa INT64
PhoneService STRING
OnlineBackup STRING
Dependentes BOOLEAN
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Veja a seguir algumas das consultas de amostra que os insights de dados geram para essa tabela:

  • Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Identifique qual serviço de Internet tem mais clientes desistentes.

    SELECT
      InternetService,
      COUNT(DISTINCT customerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifique os segmentos de clientes com altas taxas de desistência de usuários entre clientes de alto valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT customerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Sobre insights embasados usando verificações de perfil

Ao criar uma verificação de perfil de dados para uma tabela, é possível publicar os resultados da verificação no BigQuery e no Data Catalog. Os insights de dados usam os dados da verificação de perfil publicados para gerar consultas mais precisas e relevantes sobre a tabela.

Os dados de verificação de perfil publicados podem ser visualizados no console do Google Cloud. Para mais informações sobre como visualizar os dados da verificação do perfil publicados, consulte Relatórios e monitoramento.

Se uma verificação de perfil publicada para a tabela estiver acessível, ela será usada para gerar insights abrangentes. Caso contrário, os insights são formulados com base nos nomes das colunas e suas respectivas descrições. Essa abordagem garante que você receba insights, independente da disponibilidade de uma verificação de perfil.

Os dados da verificação de perfil fornecem informações valiosas sobre a distribuição e os tipos de dados, além de resumos estatísticos do conjunto de dados. Como as consultas são baseadas usando dados de verificação de perfil, os insights de dados garantem que as consultas geradas sejam significativas e retornam resultados que ajudam em análises mais detalhadas.

Para mais informações sobre verificações de perfil, consulte Sobre a criação de perfil de dados.

Para mais informações sobre como criar e publicar verificações de perfil, consulte Criar e usar verificações de perfil de dados.

As seções a seguir descrevem como os insights de dados usam os dados de verificação de perfil publicados para consultas empíricas.

Sobre os dados da verificação de perfil

Os dados da verificação de perfil são os metadados que descrevem o conteúdo do conjunto de dados. Ele inclui as seguintes informações:

  • Tipos de dados das colunas
  • Valores mínimos e máximos
  • Distribuição de valores
  • Valores nulos ou ausentes
  • Principais valores
  • Valores exclusivos e suas frequências

Os insights de dados usam essas informações para gerar consultas personalizadas para um conjunto de dados específico e fornecer insights significativos.

Como os insights de dados fundamentam consultas usando dados de verificação de perfil

Os insights de dados usam dados da verificação de perfil para criar consultas baseadas na distribuição de dados e nos padrões reais dentro do conjunto de dados. Esse processo envolve as seguintes etapas:

  • Analisar os dados da verificação de perfil para identificar padrões, tendências ou outliers interessantes nos dados.
  • Gerar consultas focadas nesses padrões, tendências ou outliers para descobrir insights.
  • Validação das consultas geradas em relação aos dados da verificação de perfil para garantir que as consultas retornem resultados significativos.

Dicas para maximizar os benefícios dos insights de dados

Consultas fundamentadas ajudam a garantir que os insights obtidos são precisos, relevantes e acionáveis, permitindo que você tome decisões melhores com base em dados. Para aproveitar ao máximo as consultas embasadas usando dados de verificação de perfil, siga estas dicas:

  • Certifique-se de que sua tabela tenha dados atualizados de verificação de perfil publicados. Isso ajuda os insights de dados a gerar consultas mais precisas e relevantes.
  • Confira as consultas geradas para entender como elas são fundamentadas nos dados da verificação do perfil. Isso permite interpretar os resultados e receber insights mais profundos sobre seus dados.
  • Ajuste as configurações de verificação de perfil da sua tabela ou forneça mais contexto para insights de dados, caso as consultas geradas não sejam relevantes ou úteis.

Preços

O recurso de insights de dados do Dataplex é oferecido sem custo financeiro durante este pré-lançamento.

Limitações

  • Os insights de dados estão disponíveis para visualizações, tabelas externas e tabelas nativas do BigQuery.
  • Para clientes que têm várias nuvens, os dados de outras nuvens não estão disponíveis.
  • Os insights de dados estão disponíveis em todas as regiões do Dataplex.
  • Os insights de dados não são compatíveis com os tipos de coluna Geo ou JSON.
  • A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.
  • Para tabelas com controle de acesso (ACLs) no nível da coluna e permissões de usuário restritas, será possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter as respectivas permissões.

Antes de começar

Papéis e permissões necessárias

Para criar, gerenciar e recuperar insights de dados, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para ter acesso somente leitura aos insights gerados, peça ao administrador para conceder a você o seguinte papel do IAM:

Para garantir que a conta de serviço do Dataplex tenha as permissões necessárias para ler as verificações de perfil de dados publicadas, peça ao administrador para conceder ao Agente de serviço do Dataplex no projeto o papel do IAM a seguir. Isso ajuda a fundamentar as consultas geradas usando valores reais presentes na tabela do BigQuery.

Para mais informações sobre como conceder papéis, consulte Gerenciar o acesso a contas de serviço.

Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Ativar APIs

Para usar insights de dados, ative as seguintes APIs no seu projeto:

Para mais informações sobre como ativar a API Gemini, consulte Ativar o Gemini Code Assist em um projeto do Google Cloud.

Gerar insights para uma tabela do BigQuery

Para gerar insights de uma tabela do BigQuery, acesse a entrada da tabela no Dataplex usando a pesquisa do Dataplex.

  1. No console do Google Cloud, acesse a página Pesquisa do Dataplex.

    Acessar a Pesquisa do Dataplex

  2. Procure a entrada da tabela no Dataplex.

  3. Clique na guia Insights. Se a guia estiver vazia, isso significa que os insights da tabela ainda não foram gerados.

  4. Para acionar o pipeline de insights, clique em Gerar insights.

    Leva de 5 a 10 minutos para que os insights sejam preenchidos.

  5. Na guia Insights, veja as consultas geradas e as descrições delas.

  6. Para executar uma consulta, clique em Abrir no BigQuery. A consulta é aberta no BigQuery.

  7. Para gerar um novo conjunto de consultas, clique em Gerar insights e acione o pipeline novamente.

Gerar insights para uma tabela externa do BigQuery

Os insights de dados do Dataplex oferecem suporte a tabelas externas do BigQuery que estão localizadas no mesmo projeto do Google Cloud. Se a tabela do BigQuery fizer referência a dados armazenados no Cloud Storage em outro projeto do Google Cloud, a geração de insights falhará.

Para gerar insights de uma tabela externa do BigQuery, siga as instruções descritas na seção Gerar insights de uma tabela do BigQuery deste documento.

Gerar insights para uma tabela do BigLake

Para gerar insights para uma tabela do BigLake, siga estas etapas:

  1. Ative a API BigQuery Connection no projeto.

    Ative a API BigQuery Connection

  2. Criar uma conexão do BigQuery. Para mais informações, consulte Gerenciar conexões.

  3. Conceda o papel do IAM de Leitor de objetos do Storage (roles/storage.objectViewer) à conta de serviço correspondente à conexão do BigQuery que você criou.

    Você pode recuperar o ID da conta de serviço na página de informações de conexão da conta.

  4. Para gerar insights, siga as instruções descritas na seção Gerar insights para uma tabela do BigQuery deste documento.

A seguir