Os insights de dados oferecem uma maneira automatizada e intuitiva de explorar e entender seus dados. Ele usa modelos de linguagem grandes do Gemini para gerar consultas com base nos metadados de uma tabela e permite descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
Neste documento, descrevemos os principais recursos de insights de dados e o processo de automatização da geração de consultas para uma exploração de dados perspicaz.
Sobre os insights de dados
Os analistas de dados enfrentam o problema da inicialização a frio na exploração de dados, ao analisar um novo conjunto de dados com pouco ou nenhum conhecimento prévio. O problema geralmente envolve incertezas sobre a estrutura dos dados, os principais padrões e insights relevantes. Ao usar a geração automatizada de consultas com base em metadados, os insights de dados resolvem o problema de inicialização a frio na exploração de dados. Os insights fornecem dicas valiosas para ajudar você a tomar decisões informadas e receber insights mais profundos sobre seus dados. Em vez de começar do zero, é possível iniciar a exploração de dados mais rapidamente com consultas significativas que oferecem insights valiosos.
As consultas geradas com insights de dados são fundamentadas com dados de verificação de perfil publicados. Os insights de dados usam dados de verificação de perfil publicados para criar consultas que apresentam resultados, oferecendo uma recuperação de informações eficiente e confiável. Isso acelera significativamente o início do processo de análise de dados e permite que você analise os dados com uma direção e um propósito mais claros.
Os insights de dados servem como uma ferramenta de orientação que resolve o desafio comum de navegar por conjuntos de dados desconhecidos, permitindo que você tome decisões informadas e descubra padrões mais rapidamente durante a exploração de dados.
Exemplo de execução de insights
Considere uma tabela chamada telco_churn
com os seguintes metadados técnicos:
Nome do campo | Tipo |
---|---|
CustomerID | STRING |
Gênero | STRING |
Tempo de casa | INT64 |
PhoneService | STRING |
OnlineBackup | STRING |
Dependentes | BOOLEAN |
Contrato | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
Veja a seguir algumas das consultas de amostra que os insights de dados geram para essa tabela:
Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineSecurity = 'Yes' AND OnlineBackup = 'Yes' AND DeviceProtection = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND StreamingMovies = 'Yes' AND Tenure > 50;
Identifique qual serviço de Internet tem mais clientes desistentes.
SELECT InternetService, COUNT(DISTINCT customerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifique os segmentos de clientes com altas taxas de desistência de usuários entre clientes de alto valor.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT customerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Sobre insights embasados usando verificações de perfil
Ao criar uma verificação de perfil de dados para uma tabela, é possível publicar os resultados da verificação no BigQuery e no Data Catalog. Os insights de dados usam os dados da verificação de perfil publicados para gerar consultas mais precisas e relevantes sobre a tabela.
Os dados de verificação de perfil publicados podem ser visualizados no console do Google Cloud. Para mais informações sobre como visualizar os dados da verificação do perfil publicados, consulte Relatórios e monitoramento.
Se uma verificação de perfil publicada para a tabela estiver acessível, ela será usada para gerar insights abrangentes. Caso contrário, os insights são formulados com base nos nomes das colunas e suas respectivas descrições. Essa abordagem garante que você receba insights, independente da disponibilidade de uma verificação de perfil.
Os dados da verificação de perfil fornecem informações valiosas sobre a distribuição e os tipos de dados, além de resumos estatísticos do conjunto de dados. Como as consultas são baseadas usando dados de verificação de perfil, os insights de dados garantem que as consultas geradas sejam significativas e retornam resultados que ajudam em análises mais detalhadas.
Para mais informações sobre verificações de perfil, consulte Sobre a criação de perfil de dados.
Para mais informações sobre como criar e publicar verificações de perfil, consulte Criar e usar verificações de perfil de dados.
As seções a seguir descrevem como os insights de dados usam os dados de verificação de perfil publicados para consultas empíricas.
Sobre os dados da verificação de perfil
Os dados da verificação de perfil são os metadados que descrevem o conteúdo do conjunto de dados. Ele inclui as seguintes informações:
- Tipos de dados das colunas
- Valores mínimos e máximos
- Distribuição de valores
- Valores nulos ou ausentes
- Principais valores
- Valores exclusivos e suas frequências
Os insights de dados usam essas informações para gerar consultas personalizadas para um conjunto de dados específico e fornecer insights significativos.
Como os insights de dados fundamentam consultas usando dados de verificação de perfil
Os insights de dados usam dados da verificação de perfil para criar consultas baseadas na distribuição de dados e nos padrões reais dentro do conjunto de dados. Esse processo envolve as seguintes etapas:
- Analisar os dados da verificação de perfil para identificar padrões, tendências ou outliers interessantes nos dados.
- Gerar consultas focadas nesses padrões, tendências ou outliers para descobrir insights.
- Validação das consultas geradas em relação aos dados da verificação de perfil para garantir que as consultas retornem resultados significativos.
Dicas para maximizar os benefícios dos insights de dados
Consultas fundamentadas ajudam a garantir que os insights obtidos são precisos, relevantes e acionáveis, permitindo que você tome decisões melhores com base em dados. Para aproveitar ao máximo as consultas embasadas usando dados de verificação de perfil, siga estas dicas:
- Certifique-se de que sua tabela tenha dados atualizados de verificação de perfil publicados. Isso ajuda os insights de dados a gerar consultas mais precisas e relevantes.
- Confira as consultas geradas para entender como elas são fundamentadas nos dados da verificação do perfil. Isso permite interpretar os resultados e receber insights mais profundos sobre seus dados.
- Ajuste as configurações de verificação de perfil da sua tabela ou forneça mais contexto para insights de dados, caso as consultas geradas não sejam relevantes ou úteis.
Preços
O recurso de insights de dados do Dataplex é oferecido sem custo financeiro durante este pré-lançamento.
Limitações
- Os insights de dados estão disponíveis para visualizações, tabelas externas e tabelas nativas do BigQuery.
- Para clientes que têm várias nuvens, os dados de outras nuvens não estão disponíveis.
- Os insights de dados estão disponíveis em todas as regiões do Dataplex.
- Os insights de dados não são compatíveis com os tipos de coluna
Geo
ouJSON
. - A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.
- Para tabelas com controle de acesso (ACLs) no nível da coluna e permissões de usuário restritas, será possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter as respectivas permissões.
Antes de começar
Papéis e permissões necessárias
Para criar, gerenciar e recuperar insights de dados, peça ao administrador para conceder a você os seguintes papéis do IAM:
Editor do DataScan Dataplex (
roles/dataplex.dataScanEditor
) ou Administrador do DataScan Dataplex (roles/dataplex.dataScanAdmin
) no projeto em que você quer gerar insightsLeitor de dados do BigQuery (
roles/bigquery.dataViewer
) nas tabelas do BigQuery para as quais você quer gerar insights
Para ter acesso somente leitura aos insights gerados, peça ao administrador para conceder a você o seguinte papel do IAM:
- Leitor de dados do DataScan Dataplex (
roles/dataplex.dataScanDataViewer
) no projeto que contém as tabelas do BigQuery em que você quer visualizar insights
Para garantir que a conta de serviço do Dataplex tenha as permissões necessárias para ler as verificações de perfil de dados publicadas, peça ao administrador para conceder ao Agente de serviço do Dataplex no projeto o papel do IAM a seguir. Isso ajuda a fundamentar as consultas geradas usando valores reais presentes na tabela do BigQuery.
- Leitor de dados do DataScan Dataplex (
roles/dataplex.dataScanDataViewer
)
Para mais informações sobre como conceder papéis, consulte Gerenciar o acesso a contas de serviço.
Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.
Ativar APIs
Para usar insights de dados, ative as seguintes APIs no seu projeto:
Para mais informações sobre como ativar a API Gemini, consulte Ativar o Gemini Code Assist em um projeto do Google Cloud.
Gerar insights para uma tabela do BigQuery
Para gerar insights de uma tabela do BigQuery, acesse a entrada da tabela no Dataplex usando a pesquisa do Dataplex.
No console do Google Cloud, acesse a página Pesquisa do Dataplex.
Procure a entrada da tabela no Dataplex.
Clique na guia Insights. Se a guia estiver vazia, isso significa que os insights da tabela ainda não foram gerados.
Para acionar o pipeline de insights, clique em Gerar insights.
Leva de 5 a 10 minutos para que os insights sejam preenchidos.
Na guia Insights, veja as consultas geradas e as descrições delas.
Para executar uma consulta, clique em Abrir no BigQuery. A consulta é aberta no BigQuery.
Para gerar um novo conjunto de consultas, clique em Gerar insights e acione o pipeline novamente.
Gerar insights para uma tabela externa do BigQuery
Os insights de dados do Dataplex oferecem suporte a tabelas externas do BigQuery que estão localizadas no mesmo projeto do Google Cloud. Se a tabela do BigQuery fizer referência a dados armazenados no Cloud Storage em outro projeto do Google Cloud, a geração de insights falhará.
Para gerar insights de uma tabela externa do BigQuery, siga as instruções descritas na seção Gerar insights de uma tabela do BigQuery deste documento.
Gerar insights para uma tabela do BigLake
Para gerar insights para uma tabela do BigLake, siga estas etapas:
Ative a API BigQuery Connection no projeto.
Criar uma conexão do BigQuery. Para mais informações, consulte Gerenciar conexões.
Conceda o papel do IAM de Leitor de objetos do Storage (
roles/storage.objectViewer
) à conta de serviço correspondente à conexão do BigQuery que você criou.Você pode recuperar o ID da conta de serviço na página de informações de conexão da conta.
Para gerar insights, siga as instruções descritas na seção Gerar insights para uma tabela do BigQuery deste documento.
A seguir
- Saiba mais sobre a criação de perfil de dados do Dataplex.
- Saiba como escrever consultas com a assistência do Gemini no BigQuery.