La IA generativa facilita la comprensión de documentos: resume documentos grandes con una solución compilada previamente recomendada por Google.

Vision AI

Extrae estadísticas de imágenes, documentos y videos

Accede a modelos de vision avanzados a través de APIs para automatizar las tareas de vision, optimizar el análisis y obtener estadísticas prácticas. O bien, crea apps personalizadas con entrenamiento de modelos sin código y bajo costo en un entorno administrado.

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Vision AI y otros productos de Google Cloud.

También puedes intentar implementar las soluciones de resumen de documentos y de procesamiento de imágenes con IA/AA recomendadas por Google.

Descripción general

¿Qué es la visión artificial?

La visión artificial es un campo de la Inteligencia Artificial (IA) que permite que las computadoras y los sistemas interpreten y analicen datos visuales y obtengan información significativa a partir de imágenes digitales, videos y otras entradas visuales. Algunas de sus aplicaciones típicas en el mundo real incluyen: detección de objetos, procesamiento de contenido visual (imágenes, documentos, videos), comprensión y análisis, búsqueda de productos, clasificación y búsqueda de imágenes, y moderación de contenido.

IA generativa multimodal avanzada

Vertex AI de Google Cloud ofrece acceso a Gemini, una familia de modelos multimodales de vanguardia que son capaces de comprender prácticamente cualquier entrada, combinar diferentes tipos de información y generar casi cualquier resultado. Si bien Gemini es más adecuado para tareas que combinan imágenes, texto y código, Gemini Pro Vision se destaca en una amplia variedad de tareas relacionadas con vision, como el reconocimiento de objetos, la comprensión del contenido digital y la generación de leyendas y descripciones. Se puede acceder a él a través de una API.

IA generativa enfocada en vision

Imagen en Vertex AI ofrece las capacidades de IA generativa de imágenes de vanguardia de Google a los desarrolladores de aplicaciones a través de una API. Algunas de sus funciones clave incluyen la generación de imágenes (DG restringida) con mensajes de texto y la edición de imágenes (DG restringida) con instrucciones de texto, la descripción de una imagen en texto (también conocida como subtítulos visuales, DG) y el ajuste del modelo de tema (DG restringida). Obtén más información sobre sus funciones clave y etapas de lanzamiento.

Vision AI listo para usar

Con la tecnología de los modelos de AA de visión artificial previamente entrenados de Google, la API de Cloud Vision es una API disponible (REST y RPC) que permite a los desarrolladores integrar fácilmente funciones comunes de detección de visión en las aplicaciones, incluidas las siguientes: etiquetado de imágenes, detección de rostros y puntos de referencia, reconocimiento óptico de caracteres (OCR) y etiquetado de contenido explícito. 

Cada función que aplicas a una imagen es una unidad facturable; la API de Cloud Vision te permite usar 1,000 unidades de sus funciones de forma gratuita cada mes. Consulta los detalles de precios.

IA generativa para interpretar documentos

Document AI es una plataforma de comprensión de documentos que combina la visión artificial y otras tecnologías, como el procesamiento de lenguaje natural, para extraer texto y datos de documentos escaneados, lo que transforma los datos no estructurados en información estructurada y estadísticas empresariales. 

Ofrece una amplia variedad de procesadores previamente entrenados optimizados para diferentes tipos de documentos. También facilita la compilación de procesadores personalizados para clasificar, dividir y extraer datos estructurados de documentos mediante Document AI Workbench.

Vision AI lista para usar para videos

Con la tecnología de visión artificial en esencia, la API de Video Intelligence es una forma fácil de procesar, analizar y comprender el contenido de video. 

Sus modelos de AA previamente entrenados reconocen automáticamente una gran cantidad de objetos, lugares y acciones en videos en streaming o almacenados, con una calidad excepcional. Es muy eficiente para casos de uso comunes, como la moderación y recomendación de contenido, archivos multimedia y anuncios contextuales. También puedes entrenar modelos personalizados de AA con Vertex AI Vision para satisfacer tus necesidades específicas. 

Vision AI lista para usar para la búsqueda de productos en el comercio

Product Search de la API de Vision es un servicio especializado dentro del paquete de herramientas de Google Cloud Vision AI que brinda a los usuarios la capacidad de buscar un producto con sus propias imágenes. Puedes considerarlo como un motor de búsqueda de imágenes optimizado para productos, que actualmente admite las siguientes categorías de productos: artículos para el hogar, indumentaria, juguetes, productos envasados y general.

Visual Inspection AI

Visual Inspection AI automatiza las tareas de inspección visual en la fabricación y otros entornos industriales. Aprovecha técnicas avanzadas de visión artificial y aprendizaje profundo para analizar imágenes y videos, identificar anomalías, detectar y localizar defectos y verificar las piezas faltantes y defectuosas en los productos ensamblados.

Puedes entrenar modelos personalizados sin conocimientos técnicos y con una cantidad mínima de imágenes etiquetadas, ejecutar inferencias con eficacia en las líneas de producción y actualizar de forma continua los modelos con datos recientes de la fábrica.

Vision AI Platform unificada

Vertex AI Vision es un entorno de desarrollo de aplicaciones completamente administrado que les permite a los desarrolladores compilar, implementar y administrar fácilmente aplicaciones de visión artificial para procesar una variedad de modalidades de datos, como texto, imágenes, video y tabulares. Reduce el tiempo de compilación de días a minutos a una décima parte del costo de las ofertas actuales.

Puedes compilar e implementar tus propios modelos personalizados, además de administrarlos y escalarlos con canalizaciones de CI/CD. También se integra en herramientas populares de código abierto como TensorFlow y PyTorch.

Seguridad y privacidad de los datos

Google Cloud cuenta con capacidades líderes en la industria que les brindan a ustedes, nuestros clientes, el control de sus datos y proporcionan visibilidad sobre cuándo y cómo se accede a ellos.

Como cliente de Google Cloud, eres propietario de los datos de tus clientes. Implementamos medidas de seguridad estrictas para proteger tus datos de cliente y te proporcionamos herramientas y funciones para que los controles según tus condiciones. Los datos de cliente son de tu propiedad, no de Google. Solo procesamos tus datos en función de tus acuerdos.

Obtén más información en nuestro Centro de recursos de privacidad.

Comparar productos de visión artificial

OfertaIdeal paraCaracterísticas clave

Integración rápida y sencilla de funciones básicas de vision.

Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura. 

Rentabilidad, pago por uso.

Extrae estadísticas de imágenes y documentos escaneados, lo que automatiza los flujos de trabajo de los documentos.

OCR (con la tecnología de IA generativa), PLN y AA para la comprensión de documentos, la extracción de texto, la identificación de entidades y la categorización de documentos.

Análisis de contenido de video, moderación y recomendación de contenido, archivos multimedia y anuncios contextuales.

Detección y seguimiento de objetos, comprensión de escenas, reconocimiento de actividad, detección y análisis de rostros, detección y reconocimiento de texto.

Búsqueda de productos basada en imágenes y recomendación para mejorar la experiencia de comercio electrónico. Limitado a categorías de productos específicas.

Identifica y clasifica los productos en imágenes.

Automatización de las tareas de inspección visual en entornos industriales y de fabricación

Detección de anomalías, detección y ubicación de defectos, y verificación del ensamblaje.

Compilación e implementación de modelos personalizados para necesidades específicas.

Herramientas de preparación de datos, entrenamiento de modelos e implementación, control total de tu solución. Requiere experiencia técnica.

Análisis y comprensión visuales, y respuesta multimodal de preguntas.

Búsqueda de información, reconocimiento de objetos, comprensión del contenido digital, generación de contenido estructurado, generación de leyendas y descripciones, y extrapolación.

Obtén descripciones de imágenes automáticas. 

Búsqueda y clasificación de imágenes.

Moderación de contenido y recomendaciones.

Generación de imágenes, edición de imágenes, incorporaciones multimodales y subtítulos visuales.

Consulta la lista completa de funciones y sus etapas de lanzamiento.

Estos productos, optimizados para diferentes propósitos, te permiten aprovechar los modelos de AA previamente entrenados y ponerte en marcha con la habilidad de ajustarlos fácilmente.

Ideal para

Integración rápida y sencilla de funciones básicas de vision.

Características clave

Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura. 

Rentabilidad, pago por uso.

Ideal para

Extrae estadísticas de imágenes y documentos escaneados, lo que automatiza los flujos de trabajo de los documentos.

Características clave

OCR (con la tecnología de IA generativa), PLN y AA para la comprensión de documentos, la extracción de texto, la identificación de entidades y la categorización de documentos.

Ideal para

Análisis de contenido de video, moderación y recomendación de contenido, archivos multimedia y anuncios contextuales.

Características clave

Detección y seguimiento de objetos, comprensión de escenas, reconocimiento de actividad, detección y análisis de rostros, detección y reconocimiento de texto.

Ideal para

Búsqueda de productos basada en imágenes y recomendación para mejorar la experiencia de comercio electrónico. Limitado a categorías de productos específicas.

Características clave

Identifica y clasifica los productos en imágenes.

Ideal para

Automatización de las tareas de inspección visual en entornos industriales y de fabricación

Características clave

Detección de anomalías, detección y ubicación de defectos, y verificación del ensamblaje.

Ideal para

Compilación e implementación de modelos personalizados para necesidades específicas.

Características clave

Herramientas de preparación de datos, entrenamiento de modelos e implementación, control total de tu solución. Requiere experiencia técnica.

Ideal para

Análisis y comprensión visuales, y respuesta multimodal de preguntas.

Características clave

Búsqueda de información, reconocimiento de objetos, comprensión del contenido digital, generación de contenido estructurado, generación de leyendas y descripciones, y extrapolación.

Ideal para

Obtén descripciones de imágenes automáticas. 

Búsqueda y clasificación de imágenes.

Moderación de contenido y recomendaciones.

Características clave

Generación de imágenes, edición de imágenes, incorporaciones multimodales y subtítulos visuales.

Consulta la lista completa de funciones y sus etapas de lanzamiento.

Estos productos, optimizados para diferentes propósitos, te permiten aprovechar los modelos de AA previamente entrenados y ponerte en marcha con la habilidad de ajustarlos fácilmente.

Cómo funciona

El paquete de herramientas Vision AI de Google Cloud combina la visión artificial con otras tecnologías para comprender y analizar videos, así como integrar fácilmente funciones de detección de vision en las aplicaciones, como el etiquetado de imágenes, la detección de rostros y puntos de referencia, el reconocimiento óptico de caracteres (OCR) y el etiquetado de contenido explícito.

Estas herramientas están disponibles a través de APIs y se pueden personalizar según necesidades específicas.

Mujer junto al título del video: Cómo funciona la visión artificial

Demostración

Ve cómo funciona la visión artificial con tus propios archivos

Usos comunes

Detecta texto en archivos sin procesar y resume automáticamente

Resume documentos de gran tamaño con la IA generativa

La solución que se muestra en el diagrama de arquitectura de la derecha implementa una canalización que se activa cuando agregas un documento PDF nuevo a tu bucket de Cloud Storage. La canalización extrae texto de tu documento, crea un resumen a partir del texto extraído y almacena el resumen en una base de datos para que puedas verlo y buscarlo.

Puedes invocar a la aplicación subiendo archivos a través de Jupyter Notebook o directamente a Cloud Storage en la consola de Google Cloud.

Implementar en la consola de Google Cloud
Arquitectura de referencia del resumen de documentos con la IA generativa

Tiempo estimado de implementación: 11 min (1 min para configurar y 10 min para implementar).

Resume documentos de gran tamaño con la IA generativa

La solución que se muestra en el diagrama de arquitectura de la derecha implementa una canalización que se activa cuando agregas un documento PDF nuevo a tu bucket de Cloud Storage. La canalización extrae texto de tu documento, crea un resumen a partir del texto extraído y almacena el resumen en una base de datos para que puedas verlo y buscarlo.

Puedes invocar a la aplicación subiendo archivos a través de Jupyter Notebook o directamente a Cloud Storage en la consola de Google Cloud.

Implementar en la consola de Google Cloud
Arquitectura de referencia del resumen de documentos con la IA generativa

Tiempo estimado de implementación: 11 min (1 min para configurar y 10 min para implementar).

Búsqueda de productos basada en imágenes para el comercio electrónico

Facilita el descubrimiento de productos a tus clientes

Product Search de la API de Vision permite a los minoristas crear productos, cada uno con imágenes de referencia que describen de manera visual el producto desde un conjunto de puntos de vista. Los minoristas pueden agregar estos productos a los conjuntos de productos.

Cuando los usuarios consultan el conjunto de productos con sus propias imágenes, Product Search de la API de Vision aplica el aprendizaje automático para comparar el producto en la imagen de consulta del usuario con las imágenes del conjunto de productos del minorista y, luego, devuelve una lista de clasificaciones con resultados visuales y semánticos similares.

Prueba Product Search de la API de Vision
arquitectura de referencia de la búsqueda de productos basada en imágenes

Facilita el descubrimiento de productos a tus clientes

Product Search de la API de Vision permite a los minoristas crear productos, cada uno con imágenes de referencia que describen de manera visual el producto desde un conjunto de puntos de vista. Los minoristas pueden agregar estos productos a los conjuntos de productos.

Cuando los usuarios consultan el conjunto de productos con sus propias imágenes, Product Search de la API de Vision aplica el aprendizaje automático para comparar el producto en la imagen de consulta del usuario con las imágenes del conjunto de productos del minorista y, luego, devuelve una lista de clasificaciones con resultados visuales y semánticos similares.

Prueba Product Search de la API de Vision
arquitectura de referencia de la búsqueda de productos basada en imágenes

Compila una canalización de procesamiento de imágenes

Procesamiento escalable de imágenes en una arquitectura sin servidores

En la solución, que se muestra en el diagrama de la derecha, se usan modelos de aprendizaje automático previamente entrenados para analizar imágenes proporcionadas por los usuarios y generar anotaciones de imágenes. La implementación de esta solución crea un servicio de procesamiento de imágenes que puede ayudarte a controlar el contenido no seguro o dañino que generan los usuarios, digitalizar el texto de documentos físicos, detectar y clasificar objetos en imágenes, y mucho más.

Podrás revisar la configuración y los ajustes de seguridad para comprender cómo adaptar el servicio de procesamiento de imágenes a diferentes necesidades.

Implementar en la consola de Google Cloud
arquitectura de referencia: canalización de procesamiento de imágenes

Tiempo de implementación estimado: 12 min (2 min para configurar y 10 min para implementar)

Procesamiento escalable de imágenes en una arquitectura sin servidores

En la solución, que se muestra en el diagrama de la derecha, se usan modelos de aprendizaje automático previamente entrenados para analizar imágenes proporcionadas por los usuarios y generar anotaciones de imágenes. La implementación de esta solución crea un servicio de procesamiento de imágenes que puede ayudarte a controlar el contenido no seguro o dañino que generan los usuarios, digitalizar el texto de documentos físicos, detectar y clasificar objetos en imágenes, y mucho más.

Podrás revisar la configuración y los ajustes de seguridad para comprender cómo adaptar el servicio de procesamiento de imágenes a diferentes necesidades.

Implementar en la consola de Google Cloud
arquitectura de referencia: canalización de procesamiento de imágenes

Tiempo de implementación estimado: 12 min (2 min para configurar y 10 min para implementar)

Obtén descripciones de imágenes automáticas con la IA generativa

La función de subtítulos visuales de Imagen te permite generar una descripción relevante para una imagen. Puedes usarla para obtener metadatos más detallados sobre las imágenes a fin de almacenarlas y buscarlas, generar subtítulos automáticos. para respaldar casos de uso de accesibilidad y recibir descripciones rápidas de productos y recursos visuales.

Se puede acceder a esta función, que está disponible en alemán, español, francés, inglés e italiano, desde la consola de Google Cloud o mediante una llamada a la API.

Prueba los subtítulos visuales

La función de subtítulos visuales de Imagen te permite generar una descripción relevante para una imagen. Puedes usarla para obtener metadatos más detallados sobre las imágenes a fin de almacenarlas y buscarlas, generar subtítulos automáticos. para respaldar casos de uso de accesibilidad y recibir descripciones rápidas de productos y recursos visuales.

Se puede acceder a esta función, que está disponible en alemán, español, francés, inglés e italiano, desde la consola de Google Cloud o mediante una llamada a la API.

Prueba los subtítulos visuales

Videos con procesamiento de transmisión

Obtén estadísticas de transmisiones de videos con Vertex AI Vision

Antes de analizar los datos de video con tu aplicación, crea una canalización para el flujo continuo de datos con el servicio Streams en Vertex AI Vision. Luego, los modelos previamente entrenados de Google o tu modelo personalizado analizan los datos transferidos. El resultado del análisis de las transmisiones se almacena en Vertex AI Vision Warehouse, donde puedes usar capacidades de búsqueda avanzadas potenciadas por IA para consultar contenido multimedia no estructurado.

Probar Vertex AI Vision
Arquitectura de referencia: cómo transmitir videos de procesos con Vertex AI Vision y otras herramientas de Google Cloud

Obtén estadísticas de transmisiones de videos con Vertex AI Vision

Antes de analizar los datos de video con tu aplicación, crea una canalización para el flujo continuo de datos con el servicio Streams en Vertex AI Vision. Luego, los modelos previamente entrenados de Google o tu modelo personalizado analizan los datos transferidos. El resultado del análisis de las transmisiones se almacena en Vertex AI Vision Warehouse, donde puedes usar capacidades de búsqueda avanzadas potenciadas por IA para consultar contenido multimedia no estructurado.

Probar Vertex AI Vision
Arquitectura de referencia: cómo transmitir videos de procesos con Vertex AI Vision y otras herramientas de Google Cloud

Extrae texto y estadísticas de documentos con la IA generativa

Obtén estadísticas de documentos específicos con Document AI

Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.

 Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.

También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.

Implementa la API de Document AI

Obtén estadísticas de documentos específicos con Document AI

Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.

 Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.

También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.

Implementa la API de Document AI

Inspección visual de alta precisión

Automatiza la inspección de calidad con Visual Inspection AI

Visual Inspection AI se optimiza en cada paso para que sea fácil de configurar y ver el ROI rápidamente. Con hasta 300 veces menos imágenes etiquetadas para comenzar a entrenar modelos de inspección de alto rendimiento que las plataformas de AA de uso general, se demostró que ofrece una exactitud hasta 10 veces mayor. Puedes entrenar modelos sin experiencia técnica y se ejecutan de forma local. Lo mejor de todo es que los modelos se pueden actualizar de forma continua con datos que fluyen desde la fábrica, lo que te brinda una mayor precisión a medida que descubres nuevos casos de uso.

Prueba la API de Visual Inspection AI
Arquitectura de referencia de inspección de calidad con Visual Inspection AI

Automatiza la inspección de calidad con Visual Inspection AI

Visual Inspection AI se optimiza en cada paso para que sea fácil de configurar y ver el ROI rápidamente. Con hasta 300 veces menos imágenes etiquetadas para comenzar a entrenar modelos de inspección de alto rendimiento que las plataformas de AA de uso general, se demostró que ofrece una exactitud hasta 10 veces mayor. Puedes entrenar modelos sin experiencia técnica y se ejecutan de forma local. Lo mejor de todo es que los modelos se pueden actualizar de forma continua con datos que fluyen desde la fábrica, lo que te brinda una mayor precisión a medida que descubres nuevos casos de uso.

Prueba la API de Visual Inspection AI
Arquitectura de referencia de inspección de calidad con Visual Inspection AI

Precios

Cómo funcionan los precios de Vision AICada oferta de vision tiene un conjunto de funciones o procesadores con precios diferentes. Consulta las páginas de precios detallados para obtener más información.
Nivel gratuitoProducto/ServicioPrecios con descuentoDetalles

Vision API

Las primeras 1,000 unidades

todos los meses son gratis

Document AI

N/A

El precio depende del procesador.

Más de 5,000,001 páginas

al mes por el procesador Enterprise Document OCR

API de Video Intelligence

Primeros 1,000 minutos

por mes son gratis

Más de 100,000 minutos

por mes

Vertex AI Vision

N/A

Los precios dependen de las funciones.

Imagen: incorporaciones multimodales

$0.0001 (USD)

por entrada de imagen

Imagen: subtítulos visuales

$0.0015 (USD)

por imagen

Gemini Pro Vision

Cómo funcionan los precios de Vision AI

Cada oferta de vision tiene un conjunto de funciones o procesadores con precios diferentes. Consulta las páginas de precios detallados para obtener más información.

Vision API

Producto/Servicio

Las primeras 1,000 unidades

todos los meses son gratis

Precios con descuento

Detalles

Document AI

Producto/Servicio

N/A

El precio depende del procesador.

Precios con descuento

Más de 5,000,001 páginas

al mes por el procesador Enterprise Document OCR

Detalles
API de Video Intelligence
Producto/Servicio

Primeros 1,000 minutos

por mes son gratis

Precios con descuento

Más de 100,000 minutos

por mes

Detalles

Vertex AI Vision

Producto/Servicio

N/A

Los precios dependen de las funciones.

Precios con descuento

Detalles

Imagen: incorporaciones multimodales

Producto/Servicio

Precios con descuento

Detalles

$0.0001 (USD)

por entrada de imagen

Imagen: subtítulos visuales

Producto/Servicio

Precios con descuento

Detalles

$0.0015 (USD)

por imagen

Gemini Pro Vision

Producto/Servicio
Precios con descuento
Detalles

CALCULADORA DE PRECIOS

Obtén todas las herramientas que necesitas en un solo lugar para estimar el costo de tu proyecto.

COTIZACIÓN PERSONALIZADA

Comunícate con nuestro equipo de Ventas a fin de obtener una cotización personalizada para las necesidades únicas de tu organización.

Comienza tu prueba de concepto

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Vision AI y otros productos de Google Cloud

1,000 páginas por mes son gratuitas con el OCR de documentos

Aprende a transmitir videos en vivo con la API de Video Intelligence

Aprende a compilar una app de detección de objetos en Vertex AI Vision

Obtén muestras de código para Product Search de la API de Vision

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Consola
Google Cloud