Como rastrear metadados de proveniência e linhagem para dados da área da saúde

Neste documento, você verá como rastrear metadados de proveniência e linhagem para dados da área da saúde no Google Cloud para pesquisadores, cientistas de dados e equipes de TI.

Os metadados de procedência e linhagem podem ajudar as organizações da área da saúde a rastrear o origem dos dados clínicos e operacionais, o que acontece com os dados e onde eles são armazenados. Esse rastreamento pode ajudar sua organização a atingir as seguintes metas ao trabalhar com dados da área da saúde:

  • Obedeça às políticas organizacionais e aos requisitos externos.
  • Produza cargas de trabalho de processamento de dados repetíveis, reproduzíveis e justificadas.

Os metadados de proveniência e linhagem têm muitos níveis de dados, dependendo do caso de uso. Este documento abrange três níveis de dados (conjunto de dados, campo (coluna) e registro de pacientes) e mostra como as funcionalidades integradas no Google Cloud permitem acessar e rastrear metadados de procedência e linhagem nesses níveis.

Origem dos dados

A procedência dos dados é a origem dos dados. É importante acompanhar qual fonte está produzindo quais dados, especialmente quando você está combinando várias fontes de dados em um esquema comum. Para mais informações, consulte Como transformar e combinar os dados do BigQuery.

As informações de procedência também são úteis na execução de verificações de qualidade de dados ou na criação do perfil dos dados. Por exemplo, se você souber a origem dos dados, poderá decidir se os dados atendem aos padrões de qualidade ou se precisam ser limpos.

Há várias maneiras de acompanhar a procedência no Google Cloud. Por exemplo, é possível rastrear a proveniência de um conjuntos de dados arbitrários, como os dados no Cloud Storage, usando uma convenção de nome de arquivo ou uma estrutura de pastas. Se a fonte de dados for definida na convenção de nome do arquivo, use o Cloud Data Fusion para analisar o nome do arquivo e adicionar o sistema de origem como um elemento de dados estruturados ao conjunto de dados. Isso permite que os usuários downstream filtrem por sistema de origem e executem verificações de validação com base na proveniência de dados. Por exemplo, a seguinte estrutura de nome de arquivo é analisada em várias seções:

gs://bucket-name/data-source/data-type/data-name-and-time

No exemplo do nome de arquivo anterior, a origem de dados é armazenada em um bucket, com o tipo de dados específico em uma subseção de pastas. O nome do arquivo é identificado pelo nome dos dados e pelo carimbo de data/hora. Essa convenção de nome de arquivo é analisada durante o processamento para que o bucket, a pasta e o nome possam ser adicionados como elementos de dados separados na saída final.

Recurso de procedência da FHIR

A Especificação de Recursos de interoperabilidade rápida de saúde (FHIR, na sigla em inglês) , um padrão estabelecido para trocar informações clínicas eletronicamente, inclui um recurso para manter as informações de proveniência. Ao usar as ferramentas do Google Cloud para transformações estruturais, é possível usar o recurso de procedência FHIR para rastrear transformações e mapeamentos estruturais. Cada elemento mapeado gera um recurso de proveniência, independentemente de quantos recursos FHIR ele produz. Esse recurso permite rastrear a linhagem no nível dos registros de pacientes.

Linhagem de dados

A linhagem de dados é o que acontece com os dados em cada etapa do pipeline. É importante acompanhar quais transformações acontecem com quais dados, caso você precise reproduzir o resultado ou fornecer informações a um terceiro. O Cloud Data Fusion rastreia automaticamente a linhagem de dados para todos os conjuntos de dados integrados no nível do conjunto de dados e do campo. Essa funcionalidade de captura de dados é uma ferramenta poderosa para reduzir a carga de trabalho para gerenciar dados de linhagem, assim como ajudar os usuários a entender os pipelines de dados.

Como um serviço de integração de dados totalmente gerenciado, o Cloud Data Fusion fornece uma interface gráfica do usuário (GUI, na sigla em inglês) que permite rastrear visualmente pipelines e campos de dados e uma API que permite extrair os dados de linhagem armazenados no Cloud Data Fusion. Essas duas interfaces permitem trabalhar com outras fontes ou dados de linhagem no local para gerenciar transformações de dados em todo o ecossistema. Atualmente, o Cloud Data Fusion é compatível com a linhagem no nível do conjunto de dados e do campo.

Práticas recomendadas

Algumas práticas recomendadas para rastrear dados de procedência e linhagem no Google Cloud são os seguintes:

  • Ative o Cloud Logging ao criar uma instância do Cloud Data Fusion. Ative também o Cloud Logging com a API Cloud Healthcare e qualquer outra ferramenta ou produto baseado em nuvem que você use.
  • Use o Cloud Data Fusion o máximo possível no pipeline, porque ele pode rastrear a linhagem apenas para processos executados dentro da instância. Se houver transformações que ocorrem fora da instância (por exemplo, em uma nuvem diferente ou no local), verifique se você tem acesso às práticas recomendadas para rastrear os dados. Como alternativa, você pode usar a Cask Data Application Platform (CDAP) de código aberto para capturar informações.
  • Sincronize as tags de dados e as tags de metadados em toda a organização para que as tags sejam pesquisáveis em todas as unidades de negócio.

A seguir