Vertex AI cuenta con una lista creciente de modelos de base que puedes probar, implementar y personalizar para usar en tus aplicaciones basadas en IA. Los modelos de base se ajustan para casos de uso específicos y se ofrecen en diferentes precios. En esta página, se resumen los modelos que están disponibles en las diversas APIs y se brinda orientación sobre qué modelos elegir por caso de uso.
Para obtener más información sobre todos los modelos y las APIs de IA en Vertex AI, consulta Explora los modelos y las APIs de IA.
Modelos de Gemini
En la siguiente tabla, se resumen los modelos disponibles en la API de Gemini:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
Gemini 1.5 Flash (vista previa) ( gemini-1.5-flash ) |
Modelo multimodal diseñado para aplicaciones rentables y de gran volumen. Gemini 1.5 Flash ofrece velocidad y eficiencia para compilar aplicaciones rápidas y de menor costo que no comprometen la calidad. | Cantidad máxima de tokens (entrada y salida): 1 M Cantidad máxima de tokens de salida: 8,192 Tamaño máximo de la imagen sin formato: 20 MB Tamaño máximo de la imagen codificada en base64: 7 MB Cantidad máxima de imágenes por mensaje: 3,000 Duración máxima del video: 1 hora Cantidad máxima de videos por mensaje: 10 Duración máxima del audio: aproximadamente 8.4 horas Audio máximo por mensaje: 1 Tamaño máximo del PDF: 30 MB Datos de entrenamiento: hasta mayo de 2024 |
Gemini 1.5 Pro (vista previa) ( gemini-1.5-pro ) |
Modelo multimodal que admite agregar archivos de imagen, audio, video y PDF en instrucciones de texto o chat para una respuesta de texto o código. Gemini 1.5 Pro admite la comprensión del contexto a largo plazo con hasta 1 millón de tokens. | Cantidad máxima de tokens (entrada y salida): 1 millón Tokens de salida máximo: 8192 Cantidad máxima de imágenes por mensaje: 3,000 Duración máxima del video (solo fotogramas): aproximadamente una hora Duración máxima del video (fotograma y audio): aproximadamente 45 minutos Máximo de videos por mensaje: 10 Duración máxima del audio: aproximadamente 8.4 horas Audio máximo por mensaje: 1 Tamaño máximo del PDF: 30 MB Datos de entrenamiento: hasta mayo de 2024 |
Gemini 1.0 Pro ( gemini-1.0-pro ) |
El modelo de mejor rendimiento con características para una amplia gama de tareas de solo texto.
Solo admite texto como entrada. Admite el ajuste supervisado. |
Cantidad máxima de tokens totales (entrada y salida): 32,760 Cantidad máxima de tokens de salida 8,192 Datos de entrenamiento: hasta febrero de 2023 |
Gemini 1.0 Pro Vision ( gemini-1.0-pro-vision ) |
El modelo de comprensión de imágenes y videos con mejor rendimiento para manejar una amplia gama de aplicaciones.
Admite texto, imagen y video como entradas. |
Cantidad máxima de tokens (entrada y salida): 16,384 Cantidad máxima de tokens de salida: 2048 Cantidad máxima de imágenes por mensaje: 16 Duración máxima del video: 2 minutos Cantidad máxima de videos por mensaje: 1 Datos de entrenamiento: hasta febrero de 2023 |
Gemini 1.0 Ultra (DG con lista de entidades permitidas) | El modelo de texto más capaz de Google, optimizado para tareas complejas, como instrucciones, código y razonamiento.
Solo admite texto como entrada. |
Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 2,048 |
Gemini 1.0 Ultra Vision (DG con lista de entidades permitidas) |
El modelo de visión multimodal más capaz de Google, optimizado para admitir entradas de texto, imágenes y video conjuntas. | Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 2,048 |
Los modelos de Gemini admiten los siguientes idiomas:
árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finés (fi), Francés (fr), Alemán (de), Griego (el), Hebreo (iw), Hindi (hi), Húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), polaco (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es), swahili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (uk), vietnamita (vi).
Modelos de incorporaciones
En la siguiente tabla, se resumen los modelos disponibles en la API de incorporaciones:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
Incorporaciones para texto ( ) |
Muestra las incorporaciones para las entradas de texto en inglés.
Admite el ajuste supervisado de los modelos “text-embedding-gecko” solo en inglés. |
Entrada del token máxima: 3,072 (textembedding-gecko@001), 2,048 (otras). Dimensión de incorporación: text-embedding-004 : <=768 Otras: 768. |
Incorporaciones para texto multilingüe(textembedding-gecko-multilingual@001,
|
Muestra incorporaciones para entradas de texto de más de 100 idiomas Admite el ajuste supervisado del modelo text-multilingual-embedding-002 . Admite más de 100 idiomas |
Entrada de token máxima: 2,048 Dimensión de incorporación: text-multilingual-embedding-002 : <=768 Otros: 768. |
Incorporaciones para multimodales(multimodalembedding) |
Muestra la incorporación de entradas de texto, imagen y video para comparar contenido en diferentes modelos.
Convierte texto, imagen y video en el mismo espacio vectorial. El video solo admite 1,408 dimensiones. Solo en inglés. |
Entrada máxima de token: 32, Tamaño máximo de la imagen: 20 MB, Duración máxima del video: dos minutos, Dimensión de incorporación: 128, 256, 512 o 1408 para entrada de texto + imagen, 1408 para la entrada de video. |
Los modelos de incorporación multilingües de texto admiten los siguientes idiomas:
afrikaans, albanés, amárico, árabe, armenio, azerbaiyano, vasco, bielorruso, bengalí, búlgaro, birmano, catalán, cebuano, chichewa, chino, corso, checo, danés, neerlandés, inglés, esperanto, estonio, filipino, finés, francés, gallego, georgiano, alemán, griego, gujarati, criollo haitiano, hausa, hawaiano, hebreo, hindi, hmong, húngaro, islandés, igbo, indonesio, irlandés, italiano, japonés, javanés, canarés, kazajo, jemer, coreano, kurdo, kirguís, lao, latín, letón, lituano, luxemburgués, macedonio, malgache, malayo, malayalam, maltés, maorí, marathi, mongol, nepalí, noruego, pastún, persa, polaco, portugués, punyabí, rumano, ruso, samoano, gaélico escocés, serbio, shona, sindhi, cingalés, eslovaco, esloveno, somalí, sotho, español, sundanés, swahili, sueco, tayiko, tamil, telugu, tailandés, turco, ucraniano, urdu, uzbeko, vietnamita, galés, frisón occidental, xhosa, yiddish, yoruba, zulú.
Modelo de imagen
En la siguiente tabla, se resumen los modelos disponibles en la API de Imagen:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
Imagen 2 ( imagegeneration@006) |
Este modelo admite la generación y edición de imágenes para crear imágenes de alta calidad en segundos.
La función de edición admite la eliminación y la inserción de objetos, la reparación de objetos y la edición de productos. |
Resultado máximo de la imagen: cuatro Relación de aspecto (para la generación): 1:1, 9:16, 16:9, 3:4, 4:3 Resolución: 1,500 píxeles (varía según la relación de aspecto) |
El modelo de Imagen admite los siguientes idiomas:
inglés, chino (simplificado), chino (tradicional), hindi, japonés, coreano, portugués y español.
Modelos de finalización de código
En la siguiente tabla, se resumen los modelos disponibles en las APIs de Codey:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
Codey para generación de código ( code-bison ) |
Un modelo ajustado para generar código en función de una descripción de lenguaje natural del código deseado. Por ejemplo, puede generar una prueba de unidades para una función.
Admite el ajuste supervisado |
Cantidad máxima de tokens de entrada: 6144 Cantidad máxima de tokens de salida: 1024 |
Codey para la generación de códigos 32,000 ( code-bison-32k ) |
Capacidad similar a code-bison, pero con una ventana de contexto más larga Admite el ajuste supervisado |
Cantidad máxima de tokens (entrada + salida): 32,768 Tokens de resultado máximo: 8192 |
Codey for Code Chat ( codechat-bison ) |
Un modelo ajustado para las conversaciones de chatbot que ayudan con las preguntas relacionadas con el código.
Admite el ajuste supervisado |
Cantidad máxima de tokens de entrada: 6144 Cantidad máxima de tokens de salida: 1024 |
Codey for Code Chat 32,000 ( codechat-bison-32k ) |
Capacidad similar a codechat-bison, pero con una ventana de contexto más larga Admite el ajuste supervisado |
Cantidad máxima de tokens (entrada + salida): 32,768 Tokens de resultado máximo: 8192 |
Codey para completar código ( code-gecko ) |
Un modelo ajustado para sugerir la finalización del código según el contexto en el código que se escribe. | Cantidad máxima de tokens de entrada: 2048 Cantidad máxima de tokens de salida: 64 |
Modelos de MedLM
En la siguiente tabla, se resumen los modelos disponibles en la API de MedLM:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
MedLM-medium (medlm-medium ) |
Un conjunto de modelos para el dominio médico que cumple con la HIPAA.
Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen de documentos médicos y de atención médica. |
Máximo de tokens (entrada + salida): 32,768 Máximo de tokens de salida: 8192 Idiomas: inglés |
MedLM-large (medlm-large ) |
Una variación de mayor calidad de MedLM. | Tokens de entrada máximos: 8,192 Tokens de salida máximos: 1,024 Idiomas: inglés |
Explora todos los modelos en Model Garden
Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar los modelos y las APIs de IA que están disponibles en Vertex AI, ve a Model Garden en la consola de Google Cloud.
Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.
Próximos pasos
- Prueba un instructivo de guía de inicio rápido con Vertex AI Studio o la API de Vertex AI.
- Obtén información sobre cómo probar los mensajes de texto.
- Obtén información para probar las instrucciones de chat.
- Explora modelos previamente entrenados en Model Garden.
- Obtén información para ajustar un modelo de base.
- Obtén información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.