Exploiter Data Catalog

Data Catalog est une fonctionnalité de Dataplex qui s'intègre à BigQuery en cataloguant automatiquement les métadonnées relatives aux ressources BigQuery telles que les tables, les ensembles de données, les vues et les modèles. Ce document explique comment rechercher ces ressources, afficher la traçabilité des données et ajouter des tags à l'aide de Data Catalog.

Rechercher des ressources BigQuery

Pour rechercher des ensembles de données, des tables et des projets suivis BigQuery à l'aide de Data Catalog, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Recherche de Dataplex.

    Accéder à la recherche

  2. Dans le champ Rechercher, saisissez une requête, puis cliquez sur Rechercher.

    La recherche Data Catalog vous permet de rechercher des données dans vos projets et organisations.

    Pour affiner vos paramètres de recherche, utilisez le panneau Filtres. Par exemple, dans la section Systèmes, cochez la case BigQuery. Les résultats sont filtrés par les systèmes BigQuery.

Vous pouvez effectuer des recherches de base dans Data Catalog via la console Google Cloud. Pour en savoir plus sur la recherche dans la console Google Cloud, consultez la page Ouvrir un ensemble de données public.

Traçabilité des données

La traçabilité des données est une fonctionnalité Dataplex qui vous permet de suivre la manière dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées. Vous pouvez accéder à la fonctionnalité de traçabilité des données directement à partir de BigQuery.

L'activation de la traçabilité des données dans votre projet BigQuery oblige Dataplex à enregistrer automatiquement les informations de traçabilité des tables créées par les opérations suivantes :

Avant de commencer

Dans cette section, vous activez l'API Data Lineage et attribuez des rôles IAM (Identity and Access Management) qui donnent aux utilisateurs les autorisations nécessaires pour effectuer chaque tâche de ce document.

Activer la traçabilité des données

  1. Dans la console Google Cloud, sur la page de sélection du projet, sélectionnez le projet contenant les ressources dont vous souhaitez suivre la traçabilité.

    Accéder au sélecteur de projet

  2. Activez l'API Data Lineage et les API Data Catalog.

    Activer les API

Rôles IAM requis

Les informations de traçabilité sont suivies automatiquement lorsque vous activez l'API Data Lineage.

Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus, consultez la page Rôles de traçabilité des données.

Afficher les graphiques de traçabilité dans BigQuery

Pour afficher le graphique de traçabilité des données depuis BigQuery, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le panneau Explorateur, développez votre projet et votre ensemble de données, puis sélectionnez la table.

  3. Cliquez sur l'onglet Traçage.

    Onglet Traçabilité des données

    Le graphique de traçabilité des données s'affiche.

    Graphique de traçabilité des données

  4. Facultatif: sélectionnez un nœud pour afficher des détails supplémentaires sur les entités ou les processus impliqués dans la construction des informations de traçabilité.

Pour plus d'informations sur la traçabilité des données, consultez la page Traçabilité des données.

Tags et modèles de tags

Les tags permettent aux organisations de créer, rechercher et gérer des métadonnées pour toutes leurs entrées de données dans un service unifié.

Cette section explique deux concepts clés de Data Catalog:

  • Les tags vous permettent de fournir du contexte pour une entrée de données en joignant des champs de métadonnées personnalisés.

  • Les modèles de balises sont des structures réutilisables qui vous permettent de créer rapidement des balises.

Tags

Data Catalog propose deux types de tags: les tags privés et les tags publics.

Tags privés

Les tags privés fournissent des contrôles d'accès stricts. Les utilisateurs ne peuvent rechercher ou afficher les tags et les entrées de données associées que s'ils disposent des droits d'affichage requis pour le modèle de tag privé et les entrées de données.

La recherche de tags privés sur la page Data Catalog nécessite l'utilisation de la syntaxe de recherche tag: ou des filtres de recherche.

Les tags privés sont adaptés aux scénarios dans lesquels vous devez stocker des informations sensibles dans le tag et vous souhaitez appliquer des restrictions d'accès supplémentaires en plus de vérifier que l'utilisateur est autorisé à afficher l'entrée taguée.

Tags publics

Les tags publics fournissent un contrôle d'accès moins strict pour la recherche et l'affichage des tags que les tags privés. Les utilisateurs disposant des autorisations requises pour consulter une entrée de données peuvent afficher tous les tags publics qui lui sont associés. Les autorisations d'affichage pour les tags publics ne sont requises que lorsque vous effectuez une recherche dans Data Catalog à l'aide de la syntaxe tag: ou lorsque vous affichez un modèle de tag non associé.

Les tags publics sont compatibles avec la recherche simple et la recherche avec des prédicats sur la page de recherche de Data Catalog. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud.

Par exemple, supposons que vous ayez un modèle de tag public nommé employee data que vous avez utilisé pour créer des tags pour trois entrées de données appelées Name, Location et Salary. Parmi les trois entrées de données, seuls les membres d'un groupe spécifique appelé HR peuvent afficher l'entrée de données Salary. Les deux autres entrées de données disposent d'autorisations d'affichage pour tous les employés de l'entreprise.

Si un employé n'étant pas membre de HR utilise la page de recherche Data Catalog et effectue une recherche à l'aide du mot employee, le résultat de la recherche affiche uniquement les entrées de données Name et Location avec les tags publics associés.

Les tags publics sont utiles dans de nombreux scénarios. Les tags publics acceptent les recherches simples et les prédicats, tandis que les tags privés ne permettent d'effectuer des recherches qu'avec des prédicats.

Modèles de tag

Pour commencer à ajouter des métadonnées, vous devez créer un ou plusieurs modèles de tags. Un modèle de tag peut être un modèle de tag public ou privé. Lorsque vous créez un modèle de tag, l'option permettant de créer un modèle de tag public est l'option par défaut et recommandée dans la console Google Cloud. Un modèle de tag est un groupe de paires de métadonnées clé/valeur, appelé champs. Disposer d'un ensemble de modèles s'apparente à disposer d'un schéma de base de données pour vos métadonnées.

Vous pouvez structurer vos tags par sujet. Exemple :

  • Un tag data governance de gouvernance des données comprenant des champs pour : gouverneur de données, date de conservation, date de suppression, informations personnelles (oui ou non), classification des données (publiques, confidentielles, sensibles, réglementaires)
  • Un tag data quality avec des champs pour les problèmes de qualité, la fréquence de mise à jour et les informations sur le SLO
  • Un tag data usage avec les champs pour les utilisateurs les plus fréquents, les requêtes les plus fréquentes, le nombre moyen d'utilisateurs quotidiens

Vous pouvez alors combiner et associer des tags en n'utilisant que les tags pertinents pour chaque actif de données et pour vos besoins d'entreprise.

Pour vous aider à démarrer, Data Catalog inclut une galerie de modèles de tags pour illustrer des cas d'utilisation courants d'ajout de tags. Utilisez ces exemples pour en savoir plus sur les avantages offerts par l'ajout de tags, pour obtenir des idées ou comme point de départ pour créer votre propre infrastructure d'ajout de tags.

Pour utiliser un modèle de tag, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Modèles de tag de Dataplex.

    Accéder aux modèles de tag

  2. Cliquez sur Créer un modèle de tag.

    La galerie de modèles s'affiche sur la page Créer un modèle.

Une fois que vous avez sélectionné un modèle dans la galerie, vous pouvez l'utiliser comme n'importe quel autre modèle de tag. Vous pouvez ajouter ou supprimer des attributs, et apporter des modifications au modèle selon les besoins de votre entreprise. Vous pouvez ensuite rechercher les champs et les valeurs du modèle à l'aide de Data Catalog.

Pour en savoir plus sur les tags et les modèles de tag, consultez la section Tags et modèles de tags.

Ressources régionales

Chaque modèle de tag et tag est stocké dans une région Google Cloud particulière. Vous pouvez utiliser un modèle de tag pour créer un tag dans n'importe quelle région. Vous n'avez donc pas besoin de créer des copies de votre modèle si vos entrées de métadonnées sont réparties dans plusieurs régions.