数据分析简介

借助 Dataplex 数据分析功能,您可以识别 BigQuery 表中列的常见统计特征。这些信息有助于您更有效地理解和分析数据。

典型数据值、数据分布和 null 计数等信息可以加快分析速度。与数据分类结合使用时,数据分析可以检测数据类别或敏感信息,而这些信息又可以启用访问权限控制政策。

Dataplex 还会使用此信息建议数据质量检查的规则

概念模型

Dataplex 可让您创建数据分析扫描,以便更好地了解数据分析。

下图显示了 Dataplex 如何扫描数据以报告统计特征。

数据分析扫描可分析表数据以报告统计特征。

数据分析扫描与一个 BigQuery 表相关联,并扫描该表以生成数据分析结果。数据分析扫描支持多种配置选项

配置选项

本部分介绍可用于运行数据分析扫描的配置选项。

时间安排选项

您可以通过 API 或 Google Cloud 控制台按指定频率或按需安排数据分析扫描。

范围

作为数据分析扫描规范的一部分,您可以将作业范围指定为以下选项之一:

  • 完整表:在数据分析扫描中扫描整个表。在计算分析统计信息之前,系统会对整个表应用采样、行过滤条件和列过滤条件。

  • 增量:您指定的增量数据将通过数据分析扫描进行扫描。指定表中的 DateTimestamp 列作为增量。通常,这是对表进行分区的列。在计算分析统计信息之前,会对增量数据应用采样、行过滤条件和列过滤条件。

过滤数据

您可以使用行过滤条件和列过滤条件来过滤要扫描以进行分析的数据。使用过滤条件有助于减少执行时间和费用,并排除敏感数据和无用数据。

  • 行过滤条件:借助行过滤条件,您可以重点关注特定时间段内或特定细分(例如区域)中的数据。例如,您可以过滤掉时间戳在特定日期之前的数据。

  • 列过滤条件:借助列过滤条件,您可以在表中包含和排除特定列,以运行数据分析扫描。

样本数据

借助 Dataplex,您可以指定要采样的数据中要采样的记录百分比,以便运行数据分析扫描。针对较小的数据样本创建数据分析扫描可以减少查询整个数据集的执行时间和费用。

多次数据分析扫描

借助 Dataplex,您可以使用 Google Cloud 控制台一次创建多个数据分析扫描。您可以从一个数据集中选择最多 100 个表,并为每个数据集创建数据分析扫描。了解详情

将扫描结果导出到 BigQuery 表

您可以将数据分析扫描结果导出到 BigQuery 表以供进一步分析。如需自定义报告,您可以将 BigQuery 表数据连接到 Looker 信息中心。您可以使用同一结果表跨多个扫描构建汇总报告。

数据分析结果

数据分析结果包括以下值:

列类型 数据分析结果
数值列
  • null 值的百分比。
  • 唯一(不同)近似值所占的百分比。
  • 列中最常见的 10 个值。如果列中的唯一值数量小于 10(不包括 null 值),则可以小于 10。对于每个最常见的值,系统会显示它们在当前扫描所扫描数据中的出现百分比。
  • 平均值、标准差、最小值、近似下四分位数、近似中位数、近似上限四分位和最大值。
字符串列
  • null 值的百分比。
  • 唯一(不同)近似值所占的百分比。
  • 列中最常见的 10 个值,如果列中的唯一值数量小于 10,则该值可以小于 10。
  • 字符串的平均长度、最小长度和最大长度。
其他非嵌套列(日期、时间、时间戳、二进制文件等)
  • null 值的百分比。
  • 唯一(不同)近似值所占的百分比。
  • 列中最常见的 10 个值,如果列中的唯一值数量小于 10,则该值可以小于 10。
所有其他嵌套或复杂数据类型列(如记录、数组、JSON)或任何采用重复模式的列。
  • null 值的百分比。

结果包含每次执行中扫描的记录数。

报告和监视

您可以使用以下报告和方法监控和分析数据分析结果:

  • 使用 BigQuery 和 Data Catalog 页面中源表发布的报告

    如果您已将数据分析扫描配置为在 Google Cloud 控制台的 BigQuery 和 Data Catalog 页面中发布结果,则可以在任何项目的 Data Profile 标签页中查看这些页面的最新数据分析扫描结果。

    已发布的报告。

  • Dataplex 中每个作业的历史报告

    在 Dataplex 性能剖析页面上,您可以查看最新作业和历史作业的详细报告。其中包括列级配置文件信息和使用的配置。

    每个作业的历史数据报告。

  • “分析”标签页

    在 Dataplex 性能剖析页面上,您可以使用分析标签页查看多个性能剖析作业中某个列的给定统计信息的趋势。例如,如果您使用的是增量扫描,则可以查看某个值的平均值随时间的变化趋势。

    “分析”标签页。

  • 构建您自己的信息中心或分析数据

    如果您已将数据分析扫描配置为将结果导出或保存到 BigQuery 表,则可以使用 Looker Studio 等工具构建自己的信息中心。

限制

  • 数据分析结果不会作为标记发布到 Data Catalog。
  • 包含除 BIGNUMERIC 以外的所有列类型的 BigQuery 表支持数据分析。针对包含 BIGNUMERIC 列的表创建的扫描会导致验证错误,并且无法成功创建。
  • 要扫描的 BigQuery 表不得超过 300 列。

价格

  • Dataplex 使用高级处理 SKU 收取数据分析费用。如需了解详情,请参阅价格

  • 目前尚不支持将数据分析结果发布到 Data Catalog。当该 Cloud Storage 资源可用时,我们将按照与目录元数据存储价格相同的费率向您收费。如需了解详情,请参阅价格

  • 用于数据分析的 Dataplex 高级处理功能按秒计费,最低消费为 1 分钟。

  • 您无需为失败的分析扫描付费。

  • 费用取决于行数、列数、扫描的数据量、表的分区和聚类设置以及扫描频率。

  • 以下几种方法可以降低数据分析扫描的成本:

    • 采样
    • 增量扫描
    • 列过滤
    • 行过滤
  • 如需将数据分析费用与 Dataplex 高级处理 SKU 中的其他费用分开,请使用标签 goog-dataplex-workload-type,值为 DATA_PROFILE

  • 如需过滤总费用,请使用以下标签:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

后续步骤