MLOps com Intelligent Products Essentials

Last reviewed 2022-06-28 UTC

Neste documento, descrevemos uma arquitetura de referência para implementar MLOps usando o Intelligent Products Essentials e a Vertex AI. Essas ferramentas podem ajudar os fabricantes a melhorar continuamente os produtos fazendo o seguinte:

  • Inclusão de recursos inteligentes para atender melhor às necessidades dos clientes
  • Gerar receita com novos recursos de produtos.

Com esses objetivos em mente, este documento é destinado a cientistas de dados, engenheiros de machine learning (ML) e arquitetos de soluções que querem aprender sobre uma arquitetura de soluções de MLOps para produtos conectados.

MLOps

Conforme descrito em Débito técnico oculto em sistemas de ML, o código de ML é apenas uma pequena parte de sistemas maduros. Além do código de ML e dos dados de alta qualidade, você precisa de uma maneira de colocar seus processos de ML em funcionamento.

O MLOps é uma prática que ajuda as empresas a criar, implantar e colocar seu sistema de ML em operação de maneira rápida, repetível e confiável. MLOps é uma aplicação de princípios de DevOps para sistemas de ML. MLOps é uma cultura e prática de engenharia destinada a unificar o desenvolvimento de sistemas de ML (Dev) e a operação de sistemas de ML (Ops). O objetivo do MLOps é fornecer um conjunto de processos padronizados e recursos de tecnologia para criar, implantar e colocar sistemas de ML em operação de maneira rápida e confiável.

As seções a seguir discutem como as MLOps podem ser implementadas com o Intelligent Products Essentials e a Vertex AI.

Perfis de MLOps

Arquitetura de alto nível do Intelligent Products Essentials e dos principais perfis de usuário do MLOps.

O diagrama anterior mostra os seguintes componentes principais e perfis de usuário de MLOps:

  • Essential Products Essentials: armazena dados de clientes, dados do dispositivo, telemetria do dispositivo e dados de propriedade no BigQuery e no Cloud Storage.
  • Cientistas de dados:são responsáveis pela análise de dados armazenados no Intelligent Products Essentials, engenharia de atributos, desenvolvimento de modelos, avaliação de modelos e criação de um pipeline de ML.
  • Engenheiros de ML:são responsáveis por orquestrar e hospedar a implantação do modelo em escala.

As seções a seguir descrevem a arquitetura de MLOps da perspectiva de cientistas de dados e engenheiros de ML.

Cientistas de dados

Para qualquer problema de ML, o objetivo dos cientistas de dados é aplicar técnicas analíticas e de ML avançadas para identificar padrões nos dados e gerar previsões. Como os dados são a base do ML, os cientistas de dados precisam de acesso fácil a conjuntos de dados e de um ambiente de desenvolvimento flexível para a análise dos dados.

O diagrama a seguir mostra a arquitetura MLOps do Intelligent Products Essentials da perspectiva dos cientistas de dados.

Arquitetura detalhada de MLOps do Intelligent Products Essentials da perspectiva do cientista de dados.

O diagrama anterior mostra os seguintes componentes de MLOps para cientistas de dados:

  • Vertex AI Workbench: oferece uma infraestrutura de computação empresarial, escalonável, totalmente gerenciada e baseada em Jupyter para conectar a todos os dados do Google Cloud na organização. Os cientistas de dados podem usar essa infraestrutura como ambiente de desenvolvimento.

  • O Feature Store da Vertex AI oferece um repositório centralizado para organizar, armazenar e exibir atributos de ML. Os cientistas de dados podem usar a Feature Store da Vertex AI para armazenar e compartilhar recursos em toda a organização.

  • SDK do Kubeflow Pipelines: permite aos cientistas de dados criar e implantar fluxos de trabalho portáteis e escalonáveis de ML com base em contêineres do Docker. Depois que os cientistas de dados produzem um modelo de ML, eles podem empacotar os procedimentos de treinamento em um pipeline de ML usando o SDK do Kubeflow Pipelines.

  • Vertex AI Pipelines: fornece um ambiente de execução para pipelines de ML criados com o SDK do Kubeflow Pipelines ou o TensorFlow Extended. Para o Intelligent Products Essentials, recomendamos que você use o SDK do Kubeflow Pipelines. Quando você usa o SDK do Kubeflow Pipelines, também há componentes pré-criados, como os Componentes do pipeline do Google Cloud, para implantação simples e rápida. Para ver a lista completa de componentes pré-criados, consulte a lista de componentes do pipeline do Google Cloud.

  • Os Cloud Source Repositories: são repositórios Git privados e repletos de recursos, hospedados no Google Cloud. Depois que os cientistas de dados definem o pipeline de ML de treinamento contínuo, eles podem armazenar a definição do pipeline em um repositório de origem, como o Cloud Source Repositories. Essa abordagem aciona a execução do pipeline de integração e implantação contínuas (CI/CD).

Engenheiros de ML

O Intelligent Products Essentials ajuda os engenheiros de ML a automatizar a operação de modelos de ML de maneira rápida e confiável. Os engenheiros de ML gerenciam os pipelines de CI/CD compatíveis com a implantação do pipeline de ML, modelo e, em alguns casos, do serviço de previsão.

O diagrama a seguir mostra a arquitetura de MLOps do Intelligent Products Essentials da perspectiva de engenheiros de ML.

Arquitetura detalhada de MLOps do Intelligent Products Essentials da perspectiva de engenheiros de ML.

O diagrama anterior mostra os seguintes componentes de MLOps para engenheiros de machine learning:

  • Um pipeline de CI: cria, testa e empacota os componentes do pipeline de ML.
  • Um pipeline de CD: implanta o pipeline de ML em ambientes apropriados, como ambientes de preparo ou de produção.
  • Pipeline de ML: prepara dados de treinamento e treina modelos de ML. Ela inclui as seguintes etapas:
    • Extração de dados: extrai conjuntos de dados de treinamento de fontes de dados predefinidas.
    • Validação de dados: identifica anomalias no esquema de dados e na distribuição de valores de dados.
    • Preparação de dados: envolve a limpeza e transformação de dados e a engenharia de atributos.
    • Treinamento de modelo: cria modelos treinados usando dados de treinamento e outras técnicas de ML, como otimização de hiperparâmetros.
    • Avaliação de modelos: avalia o desempenho do modelo treinado (da etapa de treinamento de modelo anterior) no conjunto de dados de teste.
    • Validação de modelos: confirma se o modelo treinado atende ao comparativo de mercado de desempenho preditivo para implantação.
  • Gatilhos de pipeline de ML : eventos publicados em Pub/Sub que acionam o pipeline de ML para treinamento contínuo de dados.
  • Vertex AI Model Registry: armazena diferentes versões de modelos treinados e os metadados associados.
  • Previsão em lote: aplica previsões em lotes a dados de entrada armazenados no Cloud Storage ou no BigQuery (disponíveis com o AutoML Tables). A operação de previsão em lote pode produzir os resultados da previsão no Cloud Storage ou no BigQuery (disponíveis com o AutoML Tables) para que os sistemas downstream consumam.

A seguir