Condividi GPU con più carichi di lavoro utilizzando NVIDIA MPS


Questa pagina mostra come utilizzare il servizio multiprocesso (MPS) CUDA per consentire più carichi di lavoro per condividere un singolo acceleratore hardware GPU NVIDIA nei nodi Google Kubernetes Engine (GKE).

Panoramica

NVIDIA MPS è una soluzione di condivisione della GPU che consente a più container di condividere un singolo hardware GPU NVIDIA fisico collegato a un nodo.

NVIDIA MPS si basa sul servizio multi-processo di NVIDIA su CUDA. NVIDIA MPS è un'implementazione alternativa e compatibile con il codice binario dell'API CUDA progettata per consentire in modo trasparente l'esecuzione contemporanea di applicazioni CUDA multi-processo cooperative su un singolo dispositivo GPU.

Con NVIDIA MPS, puoi specificare il numero massimo di container condivisi di una GPU fisica. Questo valore determina quanta potenza fisica della GPU riceve ogni container, in base alle seguenti caratteristiche:

Per saperne di più su come le GPU pianificate con NVIDIA MPS, quando è consigliabile utilizzare CUDA MPS, consulta Informazioni sulle soluzioni di condivisione delle GPU in GKE.

Chi dovrebbe utilizzare questa guida

Le istruzioni riportate in questa sezione si applicano agli utenti in uno dei seguenti modi:

  • Amministratore di piattaforma: crea e gestisce un cluster GKE, pianifica i requisiti dell'infrastruttura e delle risorse e monitora le prestazioni del cluster.
  • Sviluppatore di applicazioni: progetta ed esegue il deployment dei carichi di lavoro su cluster GKE. Se vuoi istruzioni per richiedere NVIDIA MPS con GPU, consulta Eseguire il deployment di carichi di lavoro che utilizzano NVIDIA MPS con GPU.

Requisiti

  • Versione di GKE: puoi abilitare la condivisione della GPU con NVIDIA MPS su cluster GKE Standard che eseguono GKE versione 1.27.7-gke.1088000 e successive.
  • Tipo di GPU: puoi attivare NVIDIA MPS per tutti i tipi di GPU NVIDIA Tesla®.

Prima di iniziare

Prima di iniziare, assicurati di aver eseguito le seguenti attività:

  • Abilita l'API Google Kubernetes Engine.
  • Abilita l'API Google Kubernetes Engine
  • Se vuoi utilizzare Google Cloud CLI per questa attività, installa e initialize gcloud CLI. Se hai già installato gcloud CLI, scarica la versione più recente eseguendo gcloud components update.

Abilita NVIDIA MPS con GPU sui cluster GKE

In qualità di amministratore di piattaforma, devi abilitare NVIDIA MPS con GPU su un cluster GKE Standard. Poi, gli sviluppatori di applicazioni possono eseguire il deployment dei carichi di lavoro per utilizzare NVIDIA MPS con GPU. Per abilitare NVIDIA MPS con GPU su GKE, segui questi passaggi:

  1. Abilita NVIDIA MPS con GPU su un nuovo cluster GKE.
  2. Installa i driver di dispositivi GPU NVIDIA (se richiesto).
  3. Verifica le risorse GPU disponibili sui tuoi nodi.

Abilita NVIDIA MPS con GPU su un cluster GKE

Puoi abilitare NVIDIA MPS con GPU quando crei cluster GKE Standard. Il pool di nodi predefinito nel cluster ha la funzionalità abilitata. Devi comunque abilitare NVIDIA MPS con GPU quando crei manualmente nuovi pool di nodi nel cluster.

Crea un cluster con NVIDIA MPS abilitata utilizzando Google Cloud CLI:

gcloud container clusters create CLUSTER_NAME \
    --region=COMPUTE_REGION \
    --cluster-version=CLUSTER_VERSION \
    --machine-type=MACHINE_TYPE \
    --accelerator=type=GPU_TYPE,count=GPU_QUANTITY,gpu-sharing-strategy=mps,max-shared-clients-per-gpu=CLIENTS_PER_GPU,gpu-driver-version=DRIVER_VERSION

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • COMPUTE_REGION: la regione di Compute Engine per il nuovo cluster. Per i cluster a livello di zona, specifica --zone=COMPUTE_ZONE. Il tipo di GPU che utilizzi deve essere disponibile nella zona selezionata.
  • CLUSTER_VERSION: la versione di GKE per il piano di controllo e i nodi del cluster. Utilizza GKE versione 1.27.7-gke.1088000 o successive. In alternativa, specifica un canale di rilascio con quella versione di GKE utilizzando il flag --release-channel=RELEASE_CHANNEL.
  • MACHINE_TYPE: il tipo di macchina Compute Engine per i nodi.
  • GPU_TYPE: il tipo di GPU, che deve essere una piattaforma GPU NVIDIA Tesla come nvidia-tesla-v100.
  • GPU_QUANTITY: il numero di GPU fisiche da collegare a ciascun nodo nel pool di nodi predefinito.
  • CLIENTS_PER_GPU: numero massimo di container che possono condividere ciascuna GPU fisica.
  • DRIVER_VERSION: la versione del driver NVIDIA da installare. Può essere uno dei seguenti:
    • default: installa la versione predefinita del driver per la tua versione di GKE.
    • latest: installa la versione più recente del driver disponibile per la tua versione di GKE. Disponibile solo per i nodi che utilizzano Container-Optimized OS.
    • disabled: salta l'installazione automatica del driver. Devi installare manualmente un driver dopo aver creato il pool di nodi. Se ometti gpu-driver-version, questa è l'opzione predefinita.

Abilita NVIDIA MPS con GPU su un nuovo pool di nodi

Puoi abilitare NVIDIA MPS con GPU quando crei manualmente nuovi pool di nodi in un cluster GKE. Crea un pool di nodi con NVIDIA MPS abilitata utilizzando Google Cloud CLI:

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --machine-type=MACHINE_TYPE \
    --region=COMPUTE_REGION \
    --accelerator=type=GPU_TYPE,count=GPU_QUANTITY,gpu-sharing-strategy=mps,max-shared-clients-per-gpu=CONTAINER_PER_GPU,gpu-driver-version=DRIVER_VERSION

Sostituisci quanto segue:

  • NODEPOOL_NAME: il nome del nuovo pool di nodi.
  • CLUSTER_NAME: il nome del cluster, che deve eseguire GKE versione 1.27.7-gke.1088000 o successiva.
  • COMPUTE_REGION: la regione di Compute Engine del cluster. Per i cluster a livello di zona, specifica --zone=COMPUTE_ZONE.
  • MACHINE_TYPE: il tipo di macchina Compute Engine per i nodi. Per le GPU A100, utilizza un tipo di macchina A2. Per tutte le altre GPU, utilizza un tipo di macchina N1.
  • GPU_TYPE: il tipo di GPU, che deve essere una piattaforma GPU NVIDIA Tesla come nvidia-tesla-v100.
  • GPU_QUANTITY: il numero di GPU fisiche da collegare a ciascun nodo nel pool di nodi.
  • CONTAINER_PER_GPU: numero massimo di container che possono condividere ciascuna GPU fisica.
  • DRIVER_VERSION: la versione del driver NVIDIA da installare. Può corrispondere a uno dei seguenti:

    • default: installa la versione predefinita del driver per la tua versione di GKE.
    • latest: installa la versione più recente del driver disponibile per la tua versione di GKE. Disponibile solo per i nodi che utilizzano Container-Optimized OS.
    • disabled: salta l'installazione automatica del driver. Devi installare manualmente un driver dopo aver creato il pool di nodi. Se ometti gpu-driver-version, questa è l'opzione predefinita.

Installa i driver di dispositivi GPU NVIDIA

Se hai scelto di disabilitare l'installazione automatica dei driver durante la creazione del cluster o se utilizzi una versione GKE precedente alla 1.27.2-gke.1200, devi installare manualmente un driver NVIDIA compatibile per gestire la divisione NVIDIA MPS delle GPU fisiche. Per installare i driver, esegui il deployment di un DaemonSet di installazione GKE che li configura.

Per le istruzioni, consulta Installazione dei driver di dispositivi GPU NVIDIA.

Verifica le risorse GPU disponibili

Puoi verificare che il numero di GPU nei nodi corrisponda al numero specificato quando hai abilitato NVIDIA MPS. Puoi anche verificare che il daemon di controllo NVIDIA MPS sia in esecuzione.

Verifica le risorse GPU disponibili sui tuoi nodi

Per verificare le risorse GPU disponibili sui tuoi nodi, esegui questo comando:

kubectl describe nodes NODE_NAME

Sostituisci NODE_NAME con il nome di uno dei tuoi nodi.

L'output è simile al seguente:

...
Capacity:
  ...
  nvidia.com/gpu:             3
Allocatable:
  ...
  nvidia.com/gpu:             3

In questo output, il numero di risorse GPU sul nodo è 3 per via dei seguenti valori:

  • Il valore in max-shared-clients-per-gpu è 3.
  • Il count di GPU fisiche da collegare al nodo è 1. Se il count delle GPU fisiche fosse 2, l'output mostrerebbe 6 risorse GPU allocabili, tre per ciascuna GPU fisica.

Verifica che il daemon di controllo MPS sia in esecuzione

Il plug-in del dispositivo GPU esegue un controllo di integrità sul daemon di controllo MPS. Se il daemon di controllo MPS è in stato integro, puoi eseguire il deployment di un container.

Per verificare che il parametro MPS sia lo stato, esegui questo comando:

kubectl logs -l k8s-app=nvidia-gpu-device-plugin -n kube-system --tail=100 | grep MPS

L'output è simile al seguente:

I1118 08:08:41.732875       1 nvidia_gpu.go:75] device-plugin started
...
I1110 18:57:54.224832       1 manager.go:285] MPS is healthy, active thread percentage = 100.0
...

Nell'output potresti notare che si sono verificati i seguenti eventi:

  • L'errore failed to start GPU device manager precede l'errore MPS is healthy. Questo errore è temporaneo. Se viene visualizzato il messaggio MPS is healthy, significa che il daemon di controllo è in esecuzione.
  • Il messaggio active thread percentage = 100.0 indica che l'intera risorsa GPU fisica ha un thread completamente attivo.

Esegui il deployment di carichi di lavoro che utilizzano MPS

In qualità di operatore di applicazioni che esegue il deployment dei carichi di lavoro GPU, puoi chiedere a GKE di condividere unità di condivisione MPS nella stessa GPU fisica. Nel manifest seguente, richiedi una GPU fisica e imposti max-shared-clients-per-gpu=3. La GPU fisica riceve tre unità di condivisione MPS e avvia un job nvidia/samples:nbody con tre pod (container) in esecuzione in parallelo.

  1. Salva il file manifest come gpu-mps.yaml:

      apiVersion: batch/v1
      kind: Job
      metadata:
        name: nbody-sample
      spec:
        completions: 3
        parallelism: 3
        template:
          spec:
            hostIPC: true
            nodeSelector:
              cloud.google.com/gke-gpu-sharing-strategy: mps
            containers:
              - name: nbody-sample
                image: nvidia/samples:nbody
                command: ["/tmp/nbody"]
                args: ["-benchmark", "-i=5000"]
                resources:
                  limits:
                    nvidia.com/gpu: 1
            restartPolicy: "Never"
        backoffLimit: 1
    

    In questo file manifest:

    • hostIPC: true consente ai pod di comunicare con il daemon di controllo MPS. È obbligatorio. Tuttavia, considera che la configurazione hostIPC: true consente al container di accedere alla risorsa host, il che introduce rischi per la sicurezza.
    • 5000 iterazioni eseguite in modalità benchmark.
  2. Applica il manifest:

    kubectl apply -f gpu-mps.yaml
    
  3. Verifica che tutti i pod siano in esecuzione:

    kubectl get pods
    

    L'output è simile al seguente:

    NAME                           READY   STATUS    RESTARTS   AGE
    nbody-sample-6948ff4484-54p6q   1/1     Running   0          2m6s
    nbody-sample-6948ff4484-5qs6n   1/1     Running   0          2m6s
    nbody-sample-6948ff4484-5zpdc   1/1     Running   0          2m5s
    
  4. Controlla i log dei pod per verificare il job completato:

    kubectl logs -l job-name=nbody-sample -f
    

    L'output è simile al seguente:

    ...
    > Compute 8.9 CUDA device: [NVIDIA L4]
    18432 bodies, total time for 5000 iterations: 9907.976 ms
    = 171.447 billion interactions per second
    = 3428.941 single-precision GFLOP/s at 20 flops per interaction
    ...
    

    Poiché GKE esegue 50.000 iterazioni, il log potrebbe richiedere diversi minuti.

Esegui la pulizia

Elimina i job e tutti i relativi pod eseguendo questo comando:

kubectl delete job --all

Limita la memoria del dispositivo bloccata e il thread attivo con NVIDIA MPS

Per impostazione predefinita, quando utilizzi GPU con NVIDIA MPS su GKE, le seguenti variabili di ambiente CUDA vengono inserite nel carico di lavoro GPU:

  • CUDA_MPS_ACTIVE_THREAD_PERCENTAGE: questa variabile indica la percentuale di thread disponibili che ogni unità di condivisione MPS può utilizzare. Per impostazione predefinita, ogni unità di condivisione MPS della GPU è impostata su 100 / MaxSharedClientsPerGPU per ottenere la stessa fetta del calcolo della GPU in termini di multiprocessore del flusso.
  • CUDA_MPS_PINNED_DEVICE_MEM_LIMIT: questa variabile limita la quantità di memoria GPU che può essere allocata da un'unità di condivisione MPS della GPU. Per impostazione predefinita, ogni unità di condivisione MPS della GPU è impostata su total mem / MaxSharedClientsPerGPU per ottenere una porzione uguale della memoria GPU.

Per impostare il limite di risorse per i carichi di lavoro GPU, configura queste variabili di ambiente NVIDIA MPS:

  1. Esamina e crea l'immagine dell'esempio cuda-mps in GitHub.

  2. Salva il seguente manifest come cuda-mem-and-sm-count.yaml:

    apiVersion: v1
    kind: Pod
    metadata:
      name: cuda-mem-and-sm-count
    spec:
      hostIPC: true
      nodeSelector:
        cloud.google.com/gke-gpu-sharing-strategy: mps
      containers:
        - name: CUDA_MPS_IMAGE
          image: gcr.io/gracegao-gke-dev/cuda-mem-and-sm-count:latest
          securityContext:
            privileged: true
          resources:
            limits:
              nvidia.com/gpu: 1
    

    Sostituisci CUDA_MPS_IMAGE con il nome dell'immagine che hai creato per l'esempio cuda-mps.

    NVIDIA MPS richiede l'impostazione di hostIPC:true sui pod. La configurazione hostIPC:true consente al container di accedere alla risorsa host, il che introduce rischi per la sicurezza.

  3. Applica il manifest:

    kubectl apply -f cuda-mem-and-sm-count.yaml
    
  4. Controlla i log per questo pod:

    kubectl logs cuda-mem-and-sm-count
    

    In un esempio che utilizza NVIDIA Tesla® L4 con gpu-sharing-strategy=mps e max-shared-clients-per-gpu=3, l'output è simile al seguente:

    For device 0:  Free memory: 7607 M, Total memory: 22491 M
    For device 0:  multiProcessorCount: 18
    

    In questo esempio, la GPU NVIDIA Tesla® L4 ha 60 SM e 24 GB di memoria. Ogni unità di condivisione MPS riceve circa il 33% di thread attivi e 8 GB di memoria.

  5. Aggiorna il file manifest per richiedere 2 nvidia.com/gpu:

      resources:
            limits:
              nvidia.com/gpu: 2
    

    L'output è simile al seguente:

    For device 0:  Free memory: 15230 M, Total memory: 22491 M
    For device 0:  multiProcessorCount: 38
    
  6. Aggiorna il file manifest per eseguire l'override delle variabili CUDA_MPS_ACTIVE_THREAD_PERCENTAGE e CUDA_MPS_PINNED_DEVICE_MEM_LIMIT:

      env:
        - name: CUDA_MPS_ACTIVE_THREAD_PERCENTAGE
          value: "20"
        - name: CUDA_MPS_PINNED_DEVICE_MEM_LIMIT
          value: "0=8000M"
    

    L'output è simile al seguente:

    For device 0:  Free memory: 7952 M, Total memory: 22491 M
    For device 0:  multiProcessorCount: 10
    

Limitazioni

  • MPS su GPU pre-Volta (P100) ha funzionalità limitate rispetto ai tipi di GPU in e dopo Volta.
  • Con NVIDIA MPS, GKE fa in modo che ogni container riceva una memoria del dispositivo e thread attivi limitati. Tuttavia, altre risorse come la larghezza di banda della memoria, i codificatori o i decoder non vengono acquisite nell'ambito di questi limiti delle risorse. Di conseguenza, i container potrebbero influire negativamente sulle prestazioni di altri container se richiedono tutti la stessa risorsa illimitata.
  • NVIDIA MPS ha limitazioni di protezione della memoria e di contenimento degli errori. Ti consigliamo di valutare queste limitazioni per garantire la compatibilità con i tuoi carichi di lavoro.
  • NVIDIA MPS richiede l'impostazione di hostIPC:true sui pod. La configurazione hostIPC:true consente al container di accedere alla risorsa host, il che introduce rischi per la sicurezza.
  • GKE potrebbe rifiutare determinate richieste di GPU quando si utilizza NVIDIA MPS, per evitare comportamenti imprevisti durante l'allocazione della capacità. Per maggiori dettagli, consulta Limiti delle richieste per soluzioni di condivisione delle GPU.
  • Il numero massimo di container che possono condividere una singola GPU fisica con NVIDIA MPS è 48 (la GPU pre-Volta supporta solo 16). Durante la pianificazione della configurazione NVIDIA MPS, considera le esigenze di risorse dei tuoi carichi di lavoro e la capacità delle GPU fisiche sottostanti per ottimizzare prestazioni e reattività.
  • La configurazione dell'API NVIDIA MPS è supportata solo tramite Google Cloud CLI o la console Google Cloud.

Passaggi successivi