Como processar dados clínicos e operacionais com o Cloud Data Fusion

Este documento explica para pesquisadores, cientistas de dados e equipes de TI como o Cloud Data Fusion; pode desbloquear dados para processar, transformar e armazenar os dados no BigQuery., um armazenamento de dados agregado no Google Cloud.

As organizações de saúde dependem de dados para impulsionar os casos de uso de análise na área da saúde, mas a maioria dos dados é bloqueada em sistemas individuais. Neste documento, mostramos como acessar esses dados com o Cloud Data Fusion.

Como usar o Cloud Data Fusion como um serviço de integração de dados

O Cloud Data Fusion é um serviço de integração de dados totalmente gerenciado e nativo da nuvem com uma ampla biblioteca de transformações de código aberto e mais de 100 plug-ins disponíveis, que fornecem uma ampla matriz de sistemas e formatos de dados.

O Cloud Data Fusion permite processar e integrar dados brutos de várias fontes e transformar esses dados. Por exemplo, é possível usar o Cloud Data Fusion para mesclar ou unir fontes de dados antes de gravar no BigQuery e analisar os dados.

Os dados brutos são extraídos de fontes de dados que podem estar na forma de bancos de dados relacionais, sistemas de arquivos, mainframes e outros sistemas legados, além de sistemas de nuvem pública e do Google Cloud. Os destinos do Cloud Data Fusion, também conhecidos como coletores, são os locais em que os dados são gravados, por exemplo, Cloud Storage e BigQuery.

Como usar o Cloud Storage como um data lake

É possível usar o Cloud Storage como um local de coleta para os dados que você planeja mover para a nuvem. Também é possível usá-lo como um data lake. Com conectores próprios, o Cloud Data Fusion preenche o data lake dos sistemas locais.

Como processar tipos de dados clínicos usando a API Cloud Healthcare

A API Cloud Healthcare fornece uma solução gerenciada para processar, armazenar e acessar dados da área da saúde no Google Cloud, criando uma ponte importante entre sistemas de saúde e aplicativos hospedados na nuvem. Na API Cloud Healthcare, cada armazenamento de dados específico de modalidade e a API associada estão em conformidade com os padrões atuais. A API Cloud Healthcare é compatível com recursos rápidos de interoperabilidade de saúde (FHIR, na sigla em inglês), HL7v2 e imagens digitais e comunicações em medicina (DICOM, na sigla em inglês). Para mais informações, consulte Introdução à API Cloud Healthcare.

Recentemente, as organizações de saúde têm usado o dados de tipo FHIR para registros eletrônicos de saúde (EHRs, na sigla em inglês) e para sistemas de saúde, de modo a expandir a capacidade de consulta de dados médicos em várias organizações. Se sua organização tiver acesso aos dados FHIR, use a API Cloud Healthcare para processar dados de FHIR para uploads em massa de dados clínicos.

A API Cloud Healthcare é compatível com várias versões de FHIR. Para mais informações sobre versões e funcionalidades compatíveis, consulte a declaração de conformidade do FHIR.

Como processar outros dados estruturados

Para a capacidade de integração de dados expandida, os produtos do Google Cloud discutidos neste documento podem lidar com formatos de dados estruturados comuns, como CSV, JSON, Avro, ORC e Parquet. Além disso, o Cloud Storage pode processar qualquer formato de dados como armazenamento de blobs. Para mais informações, veja como carregar dados do Cloud Storage para o BigQuery.

O importador de dados brutos de código aberto para o BigQuery pode importar dados brutos para o BigQuery e tem os seguintes recursos:

  • Descompactação automática de arquivos de entrada, com compatibilidade com diversos formatos, incluindo gzip, LZ4, tar e ZIP
  • Detecção completa do esquema de conjunto de dados
  • Paralelização adequada baseada no Dataflow

A ferramenta de importação de dados não está limitada a dados da área da saúde. Você pode usar a ferramenta para importar qualquer tipo de conjunto de dados em um formato compatível para o BigQuery para análise posterior. Atualmente, a ferramenta é compatível com dados de tipo CSV.

Carregar dados

Há duas formas de carregamento de dados: total e incremental. O carregamento completo inicial consiste em mover dados de carregamento em lote que residem no armazenamento de dados no local para o armazenamento de dados em nuvem, no BigQuery. Esse carregamento completo é realizado apenas uma vez.

Um processo de carregamento incremental geralmente segue o processamento completo inicial, com o objetivo de manter os dados na nuvem sincronizados com o armazenamento de dados principal. Carregamentos incrementais podem assumir a forma de despejos periódicos de banco de dados ou streaming em tempo real. Para atualizações periódicas, você pode carregar um lote de atualizações de banco de dados para o Cloud Storage e incorporá-las ao armazenamento de dados na nuvem. Para atualizações em tempo real, configure a replicação de banco de dados em tempo real usando bancos de dados de processamento de transações on-line (OLTP, na sigla em inglês) ou protocolos de mensagens, como o streaming HL7v2. Para mais informações, consulte as opções de transferência de dados para a nuvem.

Como transferir conjuntos de dados grande

Para transferir grandes conjuntos de dados para o Google Cloud, pense na duração, na custo e na complexidade da transferência. Para mais informações, consulte estratégias para transferir conjuntos de dados grandes.

Ciclo de vida dos dados

A processamento de dados é apenas o primeiro passo no ciclo de vida dos dados. O Google Cloud fornece tecnologias em todo o ciclo de vida dos dados, incluindo ingestão, armazenamento, análise e visualização.

A seguir