Gemini API поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы, что означает, что вы можете включать эти типы медиафайлов в свои запросы. Для небольших файлов вы можете указать модель Gemini непосредственно на локальный файл при предоставлении подсказки. Загрузите файлы большего размера с помощью File API, прежде чем включать их в запросы.
File API позволяет хранить до 20 ГБ файлов на проект, при этом размер каждого файла не превышает 2 ГБ. Файлы хранятся в течение 48 часов, и к ним можно получить доступ с помощью вашего ключа API для генерации в течение этого периода времени, и их нельзя загрузить из API. API Files доступен бесплатно во всех регионах, где доступен API Gemini .
File API обрабатывает входные данные, которые можно использовать для создания контента с помощью model.generateContent
или model.streamGenerateContent
. Информацию о допустимых форматах файлов (типах MIME) и поддерживаемых моделях см. в разделе Поддерживаемые форматы файлов .
В этом руководстве показано, как использовать File API для загрузки мультимедийных файлов и включения их в вызов GenerateContent
API Gemini. Дополнительные сведения см. в примерах кода .
Поддерживаемые форматы файлов
Модели Gemini поддерживают запросы к файлам нескольких форматов. В этом разделе объясняются особенности использования общих медиаформатов для подсказок, в частности изображений, аудио, видео и обычных текстовых файлов. Вы можете использовать медиафайлы для запроса только в определенных версиях моделей, как показано в следующей таблице.
Модель | Изображений | Аудио | видео | Простой текст |
---|---|---|---|---|
Gemini 1.5 Pro (выпуск 008 и новее) | ✔ (максимум 3600 файлов изображений) | ✔ | ✔ | ✔ |
Близнецы Про Видение | ✔ (максимум 16 файлов изображений) | ✔ |
Форматы изображений
Вы можете использовать данные изображения для подсказок с помощью модели Gemini 1.5 или модели Gemini 1.0 Pro Vision. При использовании изображений для подсказок на них распространяются следующие ограничения и требования:
- Изображения должны относиться к одному из следующих типов MIME данных изображения:
- PNG - изображение/png
- JPEG — изображение/jpeg
- WEBP — изображение/webp
- HEIC — изображение/heic
- HEIF - изображение/хеф
- Максимум 16 отдельных изображений для модели Gemini 1.0 Pro Vision и 3600 изображений для моделей Gemini 1.5.
- Никаких конкретных ограничений на количество пикселей в изображении; однако изображения большего размера уменьшаются до максимального разрешения 3072 x 3072, сохраняя при этом исходное соотношение сторон.
Аудио форматы
Вы можете использовать аудиоданные для подсказок на моделях Gemini 1.5. Когда вы используете аудио для подсказок, на них распространяются следующие ограничения и требования:
- Аудиоданные поддерживаются в следующих распространенных типах MIME аудиоформатов:
- WAV — аудио/wav
- MP3 - аудио/mp3
- AIFF — аудио/aiff
- AAC — аудио/aac
- OGG Vorbis — аудио/ogg
- FLAC — аудио/flac
- Максимальная поддерживаемая продолжительность аудиоданных в одном приглашении — 9,5 часов.
- Аудиофайлы преобразуются до разрешения данных 16 Кбит/с, а несколько каналов звука объединяются в один канал.
- Конкретного ограничения на количество аудиофайлов в одном приглашении нет; однако общая продолжительность всех аудиофайлов в одном приглашении не может превышать 9,5 часов.
Видео форматы
Вы можете использовать видеоданные для подсказок на моделях Gemini 1.5.
Видеоданные поддерживаются в следующих распространенных типах MIME видеоформатов:
- видео/mp4
- видео/мпег
- видео/мов
- видео/ави
- видео/x-flv
- видео/миль на галлон
- видео/вебм
- видео/wmv
- видео/3gpp
Служба File API преобразует видео в изображения со скоростью 1 кадр в секунду (FPS) и может быть изменена для обеспечения наилучшего качества вывода. Отдельные изображения занимают 258 токенов независимо от разрешения и качества.
Обычные текстовые форматы
File API поддерживает загрузку текстовых файлов со следующими типами MIME:
- текстовый/обычный
- текст/html
- текст/css
- текст/JavaScript
- приложение/x-javascript
- текст/x-машинопись
- приложение/x-typescript
- текст/CSV
- текст/уценка
- текст/х-питон
- приложение/x-python-код
- приложение/json
- текст/xml
- приложение/rtf
- текст/rtf
Для обычных текстовых файлов с типом MIME, которого нет в списке, вы можете попробовать указать один из вышеуказанных типов MIME вручную.