Usa los subtítulos visuales y la búsqueda de respuestas visuales (VQA) de Imagen en Vertex AI para obtener información de imágenes (consola)

Aprende a usar las funciones de subtítulos visuales y búsqueda de respuestas visuales (VQA) de Imagen en Vertex AI para obtener información de texto sobre una imagen. En esta guía de inicio rápido, se muestra cómo usar los subtítulos visuales y la VQA en la consola de Google Cloud.

Imagen de muestra de pez
Origen de la imagen: Worachat Sodsri en Unsplash (imagen recortada, que se muestra en la consola de Google Cloud).

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Habilita la API de Vertex AI.

    Habilita la API

  5. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  7. Habilita la API de Vertex AI.

    Habilita la API

Obtén la imagen de muestra

Después de configurar tu entorno, puedes obtener una imagen de muestra y usar los subtítulos visuales y la búsqueda de respuestas visuales para obtener información sobre la imagen.

Imagen de muestra de pez
Origen de la imagen: Worachat Sodsri en Unsplash (imagen recortada).

Para obtener la imagen de muestra, descarga la imagen directamente desde Cloud Storage o usa el siguiente comando para guardarla en el directorio actual:

curl -O https://storage.googleapis.com/cloud-samples-data/generative-ai/image/vcap-vqa-quickstart_fish.jpg

Genera descripciones de imágenes con subtítulos visuales

Después de obtener la imagen de muestra, puedes enviar la solicitud de subtítulos visuales para obtener descripciones de texto de la imagen.

Consola

  1. En la consola de Google Cloud, abre la pestaña Vertex AI Studio > Vision en el panel de Vertex AI.

    Ir a la pestaña Vertex AI Studio

  2. En el menú de la parte inferior, haz clic en Subtítulos.

  3. Haz clic en Subir imagen y selecciona la imagen local que deseas subtitular.

  4. En el panel Parámetros, configura lo siguiente:

    1. Número de subtítulos: selecciona 2.
    2. Idioma: si aún no está seleccionado, elige English (en).
  5. Haz clic en Generate captions.

Genera respuestas a preguntas con VQA

Por último, puedes usar la misma imagen para hacer una pregunta sobre la imagen y obtener una respuesta mediante la función VQA.

Consola

  1. En la consola de Google Cloud, abre la pestaña Vertex AI Studio > Vision en el panel de Vertex AI.

    Ir a la pestaña Vertex AI Studio

  2. En el menú de la parte inferior, haz clic en Preguntas y respuestas visuales.

  3. Haz clic en Subir imagen y selecciona la imagen local.

  4. En el panel Parámetros, selecciona 2 como Number of answers.

  5. En el campo (Ask a question here), ingresa el siguiente texto:

    What color is the left fish?
    
  6. Haz clic en Generar .

Felicitaciones Acabas de usar las funciones de subtítulos visuales y VQA de Imagen para obtener información sobre una imagen.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Borra el proyecto

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?