เข้าร่วมการแข่งขันนักพัฒนา Gemini API! ดูข้อมูลเพิ่มเติม

หน้านี้ได้รับการแปลโดย Cloud Translation API

Gemini

Gemini คือชุดโมเดล Generative AI ที่ช่วยให้นักพัฒนาซอฟต์แวร์สร้างเนื้อหาและแก้ไขปัญหาได้ โมเดลเหล่านี้ได้รับการออกแบบและฝึกให้จัดการทั้งข้อความและรูปภาพเป็นอินพุต คู่มือนี้ให้ข้อมูลเกี่ยวกับรายละเอียดปลีกย่อยของรุ่นแต่ละรูปแบบเพื่อช่วยคุณตัดสินใจว่ารูปแบบใดเหมาะกับกรณีการใช้งานของคุณที่สุด

รายละเอียดปลีกย่อยของรุ่น

Gemini API มีโมเดลต่างๆ ที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานเฉพาะ ภาพรวมคร่าวๆ ของตัวแปร Gemini ที่มีให้เลือกมีดังนี้

ตัวแปรของรุ่น	อินพุต	เอาต์พุต	เพิ่มประสิทธิภาพสำหรับ
Gemini 1.5 Pro `gemini-1.5-pro`	เสียง รูปภาพ วิดีโอ และข้อความ	ข้อความ	งานการให้เหตุผลที่ซับซ้อน เช่น การสร้างโค้ดและข้อความ การแก้ไขข้อความ การแก้ปัญหา การดึงข้อมูลและการสร้าง
แฟลช Gemini 1.5 `gemini-1.5-flash`	เสียง รูปภาพ วิดีโอ และข้อความ	ข้อความ	ประสิทธิภาพที่รวดเร็วและอเนกประสงค์สำหรับงานที่หลากหลาย
Gemini 1.0 Pro `gemini-1.0-pro`	ข้อความ	ข้อความ	งานภาษาธรรมชาติ การแชทด้วยข้อความและโค้ดแบบมัลติเทิร์น และการสร้างโค้ด
Gemini 1.0 Pro Vision `gemini-pro-vision`	รูปภาพ วิดีโอ และข้อความ	ข้อความ	งานที่เกี่ยวข้องกับภาพ เช่น การสร้างคำอธิบายรูปภาพหรือการระบุวัตถุในรูปภาพ
การฝังข้อความ `text-embedding-004`	ข้อความ	การฝังข้อความ	การวัดความเกี่ยวข้องของสตริงข้อความ

ตารางต่อไปนี้อธิบายแอตทริบิวต์ของโมเดล Gemini ซึ่ง เหมือนกับตัวแปรของโมเดลทั้งหมด

แอตทริบิวต์	คำอธิบาย
ข้อมูลการฝึก	จุดตัดความรู้ของ Gemini คือเดือนพฤศจิกายน 2023 ความรู้เกี่ยวกับเหตุการณ์หลังจากเวลาดังกล่าวมีจำกัด
ภาษาที่รองรับ	ดูภาษาที่ใช้ได้
พารามิเตอร์โมเดลที่กำหนดค่าได้	ตำแหน่งบนสุด เพลงอันดับสูงสุด อุณหภูมิ หยุดลำดับ ความยาวเอาต์พุตสูงสุด จำนวนผู้ตอบแบบสอบถาม

ดูข้อมูลเกี่ยวกับพารามิเตอร์แต่ละรายการได้ในส่วนพารามิเตอร์โมเดลของคู่มือโมเดล Generative

Gemini 1.5 Pro

Gemini 1.5 Pro เป็นโมเดลมัลติโมดัลขนาดกลางที่เพิ่มประสิทธิภาพเพื่อการทำงานด้านการให้เหตุผลที่หลากหลาย เช่น

การสร้างโค้ด
การสร้างข้อความ
การแก้ไขข้อความ
การแก้ปัญหา
การสร้างคำแนะนำ
การดึงข้อมูล
การแยกหรือการสร้างข้อมูล
การสร้างตัวแทน AI

1.5 Pro ประมวลผลข้อมูลจำนวนมากพร้อมกันได้ ได้แก่ วิดีโอ 1 ชั่วโมง, เสียง 9.5 ชั่วโมง, ฐานของโค้ดที่มีโค้ดมากกว่า 30,000 บรรทัด หรือมากกว่า 700,000 คำ

1.5 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้	คำอธิบาย
รหัสรุ่น	`models/gemini-1.5-pro-latest`
อินพุต	เสียง รูปภาพ วิดีโอ และข้อความ
เอาต์พุต	ข้อความ
วิธีการสร้างที่รองรับ	`generateContent`
ขีดจำกัดโทเค็นอินพุต^[**]	1,048,576
ขีดจำกัดโทเค็นเอาต์พุต^[**]	8,192 คน
จำนวนรูปภาพสูงสุดต่อพรอมต์	3,600
ความยาวสูงสุดของวิดีโอ	1 ชั่วโมง
ความยาวสูงสุดของเสียง	ประมาณ 9.5 ชั่วโมง
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง	1
ความปลอดภัยของโมเดล	การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา^[*]	ฟรี: 2 รอบ 32,000 TPM 50 RPD 46,080,000 TPD Pay-as-you-go: 360 RPM 2 ล้าน TPM 10,000 RPD 14,400,000,000 TPD บริบทกว่า 2 ล้านรูปแบบ 1 รอบ 2 ล้าน TPM 50 RPD
วิธีการสำหรับระบบ	รองรับ
โหมด JSON	รองรับ
เวอร์ชันล่าสุด	`gemini-1.5-pro-latest`
เวอร์ชันล่าสุดที่เสถียร	`gemini-1.5-pro`
เวอร์ชันเสถียร	`gemini-1.5-pro-001`
อัปเดตล่าสุด	พฤษภาคม 2024

แฟลช Gemini 1.5

Gemini 1.5 Flash คือโมเดลมัลติโมดัลที่รวดเร็วและอเนกประสงค์สำหรับการปรับขนาดงานต่างๆ ที่หลากหลาย

รายละเอียดรุ่น

พร็อพเพอร์ตี้	คำอธิบาย
รหัสรุ่น	`gemini-1.5-flash-latest`
อินพุต	เสียง รูปภาพ วิดีโอ และข้อความ
เอาต์พุต	ข้อความ
วิธีการสร้างที่รองรับ	`generateContent`
ขีดจำกัดโทเค็นอินพุต^[**]	1,048,576
ขีดจำกัดโทเค็นเอาต์พุต^[**]	8,192 คน
จำนวนรูปภาพสูงสุดต่อพรอมต์	3,600
ความยาวสูงสุดของวิดีโอ	1 ชั่วโมง
ความยาวสูงสุดของเสียง	ประมาณ 9.5 ชั่วโมง
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง	1
ความปลอดภัยของโมเดล	การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา^[*]	ฟรี: 15 ครั้งต่อนาที 1 ล้าน TPM 1,500 RPD Pay-as-you-go: 1,000 RPM 2 ล้าน TPM
วิธีการสำหรับระบบ	รองรับ
โหมด JSON	รองรับ
การปรับแต่งโมเดล	เร็วๆ นี้
เวอร์ชันล่าสุด	`gemini-1.5-flash-latest`
เวอร์ชันล่าสุดที่เสถียร	`gemini-1.5-flash`
เวอร์ชันเสถียร	`gemini-1.5-flash-001`
อัปเดตล่าสุด	พฤษภาคม 2024

Gemini 1.0 Pro

Gemini 1.0 Pro เป็นโมเดล NLP ที่จัดการงานต่างๆ เช่น ข้อความแบบมัลติเทิร์นและ การแชทด้วยโค้ด และการสร้างโค้ด

1.0 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้	คำอธิบาย
รหัสรุ่น	`models/gemini-1.0-pro`
อินพุต	ข้อความ
เอาต์พุต	ข้อความ
วิธีการสร้างที่รองรับ	Python: `generate_content` REST: `generateContent`
ขีดจำกัดอัตรา^[*]	ฟรี: 15 ครั้งต่อนาที 32,000 TPM 1,500 RPD 46,080,000 TPD Pay-as-you-go: 360 RPM 120,000 TPM 30,000 RPD 172,800,000 TPD
วิธีการสำหรับระบบ	ไม่รองรับ
โหมด JSON	ไม่รองรับ
การปรับแต่งโมเดล	รองรับ: `gemini-1.0-pro-001`
เวอร์ชันล่าสุด	`gemini-1.0-pro-latest`
เวอร์ชันล่าสุดที่เสถียร	`gemini-1.0-pro`
เวอร์ชันเสถียร	`gemini-1.0-pro-001`
อัปเดตล่าสุด	February 2024

หมายเหตุ: gemini-pro เป็นชื่อแทนของ gemini-1.0-pro

วิสัยทัศน์ Gemini 1.0 Pro

Gemini 1.0 Pro Vision เป็นโมเดลแบบหลายโมดัลที่มีการเพิ่มประสิทธิภาพสูงสุดและทำงานที่เกี่ยวข้องกับภาพได้ เช่น 1.0 Pro Vision สามารถสร้างคำอธิบายรูปภาพ ระบุวัตถุที่แสดงในรูปภาพ ให้ข้อมูลเกี่ยวกับสถานที่หรือวัตถุที่แสดงในรูปภาพ และอื่นๆ

1.0 Pro Vision สามารถจัดการงานแบบ Zero 1, 1 และ 2-3 ได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้	คำอธิบาย
รหัสรุ่น	`models/gemini-pro-vision`
อินพุต	ข้อความ วิดีโอ และรูปภาพ
เอาต์พุต	ข้อความ
วิธีการสร้างที่รองรับ	Python: `generate_content` REST: `generateContent`
ขีดจํากัดโทเค็นอินพุต^[*]	12,288 คน
ขีดจำกัดโทเค็นเอาต์พุต^[*]	4,096 รายการ
ขนาดรูปภาพสูงสุด	ไม่จำกัด
จำนวนรูปภาพสูงสุดต่อพรอมต์	16
ความยาวสูงสุดของวิดีโอ	2 นาที
จำนวนวิดีโอสูงสุดต่อข้อความแจ้ง	1
ความปลอดภัยของโมเดล	การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา^[*]	60 คำขอต่อนาที
เวอร์ชันล่าสุด	`gemini-1.0-pro-vision-latest`
เวอร์ชันล่าสุดที่เสถียร	`gemini-1.0-pro-vision`
อัปเดตล่าสุด	ธันวาคม 2023

การฝังและการฝังข้อความ

การฝังข้อความ

คุณใช้โมเดลการฝังข้อความเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการฝังข้อความได้ในเอกสารประกอบของ Generative AI ใน Vertex AI เกี่ยวกับการฝังข้อความ

โมเดลการฝังข้อความได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ การฝังข้อความมีขนาดการฝังที่ยืดหยุ่นไม่เกิน 768 อักขระ คุณสามารถใช้การฝังแบบยืดหยุ่นเพื่อสร้างขนาดเอาต์พุตที่เล็กลง และอาจประหยัดค่าใช้จ่ายในการประมวลผลและจัดเก็บข้อมูลโดยสูญเสียประสิทธิภาพไปเล็กน้อย

รายละเอียดรุ่น

พร็อพเพอร์ตี้	คำอธิบาย
รหัสรุ่น	`models/text-embedding-004` (`text-embedding-preview-0409` ใน Vertex AI)
อินพุต	ข้อความ
เอาต์พุต	การฝังข้อความ
ขีดจำกัดโทเค็นอินพุต	2,048 รายการ
ขนาดมิติข้อมูลเอาต์พุต	768
วิธีการสร้างที่รองรับ	Python: `embed_content` REST: `embedContent`
ความปลอดภัยของโมเดล	ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้
ขีดจำกัดอัตรา^[*]	คำขอ 1,500 รายการต่อนาที
อัปเดตล่าสุด	เมษายน 2024

การฝัง

คุณใช้โมเดลการฝังเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้

โมเดลการฝังได้รับการเพิ่มประสิทธิภาพให้เหมาะสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ

รายละเอียดการฝังโมเดล

พร็อพเพอร์ตี้	คำอธิบาย
รหัสรุ่น	`models/embedding-001`
อินพุต	ข้อความ
เอาต์พุต	การฝังข้อความ
ขีดจำกัดโทเค็นอินพุต	2,048 รายการ
ขนาดมิติข้อมูลเอาต์พุต	768
วิธีการสร้างที่รองรับ	Python: `embed_content` REST: `embedContent`
ความปลอดภัยของโมเดล	ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้
ขีดจำกัดอัตรา^[*]	คำขอ 1,500 รายการต่อนาที
อัปเดตล่าสุด	ธันวาคม 2023

AQA

คุณสามารถใช้โมเดล AQA เพื่อทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มา (AQA) ที่เกี่ยวข้องกับเอกสาร คลังข้อมูล หรือชุดข้อความ โมเดล AQA จะแสดงคำตอบของคำถามที่มีพื้นฐานมาจากแหล่งที่มาที่ให้ไว้ พร้อมกับการประมาณความน่าจะเป็นที่ตอบได้

รายละเอียดรุ่น

พร็อพเพอร์ตี้	คำอธิบาย
รหัสรุ่น	`models/aqa`
อินพุต	ข้อความ
เอาต์พุต	ข้อความ
วิธีการสร้างที่รองรับ	Python: `GenerateAnswerRequest` REST: `generateAnswer`
ภาษาที่รองรับ	อังกฤษ
ขีดจำกัดโทเค็นอินพุต^[**]	7,168
ขีดจำกัดโทเค็นเอาต์พุต^[**]	1,024 คน
ความปลอดภัยของโมเดล	การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย
ขีดจำกัดอัตรา^[*]	60 คำขอต่อนาที
อัปเดตล่าสุด	ธันวาคม 2023

ดูตัวอย่างเพื่อสำรวจความสามารถของรูปแบบรูปแบบต่างๆ เหล่านี้

[*] โทเค็นจะมีจำนวนอักขระประมาณ 4 ตัวสำหรับโมเดล Gemini โทเค็น 100 รายการ มีคำภาษาอังกฤษประมาณ 60-80 คำ

[**] RPM: คำขอต่อนาที
TPM: โทเค็นต่อนาที
RPD: คำขอต่อวัน
TPD: โทเค็นต่อวัน

เนื่องจากขีดจำกัดของความจุ ระบบไม่รับประกันขีดจำกัดอัตราสูงสุดที่ระบุไว้

รูปแบบชื่อเวอร์ชันโมเดล

รุ่น Gemini มีให้ใช้งานทั้งในเวอร์ชันตัวอย่างหรือเวอร์ชันเสถียร ในโค้ด คุณสามารถใช้รูปแบบชื่อโมเดลแบบใดแบบหนึ่งต่อไปนี้เพื่อระบุโมเดลและเวอร์ชันที่ต้องการใช้

ล่าสุด: ชี้ไปยังโมเดลอันล้ำสมัยสำหรับรุ่นและรูปแบบที่ระบุ โมเดลที่สำคัญจะอัปเดตเป็นประจำและอาจเป็นเวอร์ชันตัวอย่าง มีเพียงแอปทดสอบและต้นแบบสำหรับการทดสอบในการสำรวจเท่านั้นที่จะใช้ชื่อแทนนี้ได้

หากต้องการระบุเวอร์ชันล่าสุด ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation>-latest ตัวอย่างเช่น gemini-1.0-pro-latest
เวอร์ชันเสถียรล่าสุด: ชี้ไปยังเวอร์ชันเสถียรล่าสุดที่เผยแพร่สำหรับรุ่นและรูปแบบที่ระบุ

หากต้องการระบุเวอร์ชันเสถียรล่าสุด ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation> เช่น gemini-1.0-pro
เสถียร: ชี้ไปที่โมเดลที่มีความเสถียรที่เจาะจง โมเดลที่เสถียรจะไม่เปลี่ยนแปลง แอปเวอร์ชันที่ใช้งานจริงส่วนใหญ่ควรใช้โมเดลที่เสถียรโดยเฉพาะ

หากต้องการระบุเวอร์ชันเสถียร ให้ใช้รูปแบบต่อไปนี้: <model>-<generation>-<variation>-<version> ตัวอย่างเช่น gemini-1.0-pro-001

ภาษาที่พร้อมใช้งาน

โมเดล Gemini ได้รับการฝึกให้ทำงานร่วมกับภาษาต่อไปนี้

อาหรับ (ar)
เบงกาลี (bn)
บัลแกเรีย (bg)
จีนตัวย่อและดั้งเดิม (zh)
โครเอเชีย (hr)
เช็ก (cs)
เดนมาร์ก (da)
ดัตช์ (nl)
อังกฤษ (en)
เอสโตเนีย (et)
ฟินแลนด์ (fi)
ฝรั่งเศส (fr)
เยอรมัน (de)
กรีก (el)
ฮีบรู (iw)
ฮินดี (hi)
ฮังการี (hu)
อินโดนีเซีย (id)
อิตาลี (it)
ญี่ปุ่น (ja)
เกาหลี (ko)
ลัตเวีย (lv)
ลิทัวเนีย (lt)
นอร์เวย์ (no)
โปแลนด์ (pl)
โปรตุเกส (pt)
โรมาเนีย (ro)
รัสเซีย (ru)
เซอร์เบีย (sr)
สโลวัก (sk)
สโลวีเนีย (sl)
สเปน (es)
สวาฮีลี (sw)
สวีเดน (sv)
ไทย (th)
ตุรกี (tr)
ยูเครน (uk)
เวียดนาม (vi)