Gemini คือชุดโมเดล Generative AI ที่ช่วยให้นักพัฒนาซอฟต์แวร์สร้างเนื้อหาและแก้ไขปัญหาได้ โมเดลเหล่านี้ได้รับการออกแบบและฝึกให้จัดการทั้งข้อความและรูปภาพเป็นอินพุต คู่มือนี้ให้ข้อมูลเกี่ยวกับรายละเอียดปลีกย่อยของรุ่นแต่ละรูปแบบเพื่อช่วยคุณตัดสินใจว่ารูปแบบใดเหมาะกับกรณีการใช้งานของคุณที่สุด
รายละเอียดปลีกย่อยของรุ่น
Gemini API มีโมเดลต่างๆ ที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานเฉพาะ ภาพรวมคร่าวๆ ของตัวแปร Gemini ที่มีให้เลือกมีดังนี้
ตัวแปรของรุ่น | อินพุต | เอาต์พุต | เพิ่มประสิทธิภาพสำหรับ |
---|---|---|---|
Gemini 1.5 Pro
gemini-1.5-pro |
เสียง รูปภาพ วิดีโอ และข้อความ | ข้อความ | งานการให้เหตุผลที่ซับซ้อน เช่น การสร้างโค้ดและข้อความ การแก้ไขข้อความ การแก้ปัญหา การดึงข้อมูลและการสร้าง |
แฟลช Gemini 1.5
gemini-1.5-flash |
เสียง รูปภาพ วิดีโอ และข้อความ | ข้อความ | ประสิทธิภาพที่รวดเร็วและอเนกประสงค์สำหรับงานที่หลากหลาย |
Gemini 1.0 Pro
gemini-1.0-pro |
ข้อความ | ข้อความ | งานภาษาธรรมชาติ การแชทด้วยข้อความและโค้ดแบบมัลติเทิร์น และการสร้างโค้ด |
Gemini 1.0 Pro Vision
gemini-pro-vision
|
รูปภาพ วิดีโอ และข้อความ | ข้อความ | งานที่เกี่ยวข้องกับภาพ เช่น การสร้างคำอธิบายรูปภาพหรือการระบุวัตถุในรูปภาพ |
การฝังข้อความ
text-embedding-004 |
ข้อความ | การฝังข้อความ | การวัดความเกี่ยวข้องของสตริงข้อความ |
ตารางต่อไปนี้อธิบายแอตทริบิวต์ของโมเดล Gemini ซึ่ง เหมือนกับตัวแปรของโมเดลทั้งหมด
แอตทริบิวต์ | คำอธิบาย |
---|---|
ข้อมูลการฝึก | จุดตัดความรู้ของ Gemini คือเดือนพฤศจิกายน 2023 ความรู้เกี่ยวกับเหตุการณ์หลังจากเวลาดังกล่าวมีจำกัด |
ภาษาที่รองรับ | ดูภาษาที่ใช้ได้ |
พารามิเตอร์โมเดลที่กำหนดค่าได้ |
|
ดูข้อมูลเกี่ยวกับพารามิเตอร์แต่ละรายการได้ในส่วนพารามิเตอร์โมเดลของคู่มือโมเดล Generative
Gemini 1.5 Pro
Gemini 1.5 Pro เป็นโมเดลมัลติโมดัลขนาดกลางที่เพิ่มประสิทธิภาพเพื่อการทำงานด้านการให้เหตุผลที่หลากหลาย เช่น
- การสร้างโค้ด
- การสร้างข้อความ
- การแก้ไขข้อความ
- การแก้ปัญหา
- การสร้างคำแนะนำ
- การดึงข้อมูล
- การแยกหรือการสร้างข้อมูล
- การสร้างตัวแทน AI
1.5 Pro ประมวลผลข้อมูลจำนวนมากพร้อมกันได้ ได้แก่ วิดีโอ 1 ชั่วโมง, เสียง 9.5 ชั่วโมง, ฐานของโค้ดที่มีโค้ดมากกว่า 30,000 บรรทัด หรือมากกว่า 700,000 คำ
1.5 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-1.5-pro-latest |
อินพุต | เสียง รูปภาพ วิดีโอ และข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generateContent
|
ขีดจำกัดโทเค็นอินพุต[**] | 1,048,576 |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 8,192 คน |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 3,600 |
ความยาวสูงสุดของวิดีโอ | 1 ชั่วโมง |
ความยาวสูงสุดของเสียง | ประมาณ 9.5 ชั่วโมง |
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] |
|
วิธีการสำหรับระบบ | รองรับ |
โหมด JSON | รองรับ |
เวอร์ชันล่าสุด | gemini-1.5-pro-latest |
เวอร์ชันล่าสุดที่เสถียร | gemini-1.5-pro |
เวอร์ชันเสถียร | gemini-1.5-pro-001 |
อัปเดตล่าสุด | พฤษภาคม 2024 |
แฟลช Gemini 1.5
Gemini 1.5 Flash คือโมเดลมัลติโมดัลที่รวดเร็วและอเนกประสงค์สำหรับการปรับขนาดงานต่างๆ ที่หลากหลาย
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | gemini-1.5-flash-latest |
อินพุต | เสียง รูปภาพ วิดีโอ และข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generateContent
|
ขีดจำกัดโทเค็นอินพุต[**] | 1,048,576 |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 8,192 คน |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 3,600 |
ความยาวสูงสุดของวิดีโอ | 1 ชั่วโมง |
ความยาวสูงสุดของเสียง | ประมาณ 9.5 ชั่วโมง |
จำนวนไฟล์เสียงสูงสุดต่อข้อความแจ้ง | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] |
|
วิธีการสำหรับระบบ | รองรับ |
โหมด JSON | รองรับ |
การปรับแต่งโมเดล | เร็วๆ นี้ |
เวอร์ชันล่าสุด | gemini-1.5-flash-latest |
เวอร์ชันล่าสุดที่เสถียร | gemini-1.5-flash |
เวอร์ชันเสถียร | gemini-1.5-flash-001 |
อัปเดตล่าสุด | พฤษภาคม 2024 |
Gemini 1.0 Pro
Gemini 1.0 Pro เป็นโมเดล NLP ที่จัดการงานต่างๆ เช่น ข้อความแบบมัลติเทิร์นและ การแชทด้วยโค้ด และการสร้างโค้ด
1.0 Pro สามารถจัดการงานสำหรับการเรียนรู้แบบ 0, 1 และ 2-3 ช็อตได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-1.0-pro |
อินพุต | ข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generate_content
generateContent
|
ขีดจำกัดอัตรา[*] |
|
วิธีการสำหรับระบบ | ไม่รองรับ |
โหมด JSON | ไม่รองรับ |
การปรับแต่งโมเดล | รองรับ: gemini-1.0-pro-001 |
เวอร์ชันล่าสุด | gemini-1.0-pro-latest |
เวอร์ชันล่าสุดที่เสถียร | gemini-1.0-pro |
เวอร์ชันเสถียร | gemini-1.0-pro-001 |
อัปเดตล่าสุด | February 2024 |
วิสัยทัศน์ Gemini 1.0 Pro
Gemini 1.0 Pro Vision เป็นโมเดลแบบหลายโมดัลที่มีการเพิ่มประสิทธิภาพสูงสุดและทำงานที่เกี่ยวข้องกับภาพได้ เช่น 1.0 Pro Vision สามารถสร้างคำอธิบายรูปภาพ ระบุวัตถุที่แสดงในรูปภาพ ให้ข้อมูลเกี่ยวกับสถานที่หรือวัตถุที่แสดงในรูปภาพ และอื่นๆ
1.0 Pro Vision สามารถจัดการงานแบบ Zero 1, 1 และ 2-3 ได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/gemini-pro-vision |
อินพุต | ข้อความ วิดีโอ และรูปภาพ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
generate_content
generateContent
|
ขีดจํากัดโทเค็นอินพุต[*] | 12,288 คน |
ขีดจำกัดโทเค็นเอาต์พุต[*] | 4,096 รายการ |
ขนาดรูปภาพสูงสุด | ไม่จำกัด |
จำนวนรูปภาพสูงสุดต่อพรอมต์ | 16 |
ความยาวสูงสุดของวิดีโอ | 2 นาที |
จำนวนวิดีโอสูงสุดต่อข้อความแจ้ง | 1 |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] | 60 คำขอต่อนาที |
เวอร์ชันล่าสุด | gemini-1.0-pro-vision-latest |
เวอร์ชันล่าสุดที่เสถียร | gemini-1.0-pro-vision |
อัปเดตล่าสุด | ธันวาคม 2023 |
การฝังและการฝังข้อความ
การฝังข้อความ
คุณใช้โมเดลการฝังข้อความเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลการฝังข้อความได้ในเอกสารประกอบของ Generative AI ใน Vertex AI เกี่ยวกับการฝังข้อความ
โมเดลการฝังข้อความได้รับการเพิ่มประสิทธิภาพสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ การฝังข้อความมีขนาดการฝังที่ยืดหยุ่นไม่เกิน 768 อักขระ คุณสามารถใช้การฝังแบบยืดหยุ่นเพื่อสร้างขนาดเอาต์พุตที่เล็กลง และอาจประหยัดค่าใช้จ่ายในการประมวลผลและจัดเก็บข้อมูลโดยสูญเสียประสิทธิภาพไปเล็กน้อย
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น |
models/text-embedding-004
(text-embedding-preview-0409 ใน Vertex AI)
|
อินพุต | ข้อความ |
เอาต์พุต | การฝังข้อความ |
ขีดจำกัดโทเค็นอินพุต | 2,048 รายการ |
ขนาดมิติข้อมูลเอาต์พุต | 768 |
วิธีการสร้างที่รองรับ |
embed_content
embedContent
|
ความปลอดภัยของโมเดล | ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้ |
ขีดจำกัดอัตรา[*] | คำขอ 1,500 รายการต่อนาที |
อัปเดตล่าสุด | เมษายน 2024 |
การฝัง
คุณใช้โมเดลการฝังเพื่อสร้างการฝังข้อความสำหรับอินพุตข้อความได้
โมเดลการฝังได้รับการเพิ่มประสิทธิภาพให้เหมาะสำหรับการสร้างการฝังด้วยมิติข้อมูล 768 รายการสำหรับข้อความที่มีโทเค็นสูงสุด 2,048 รายการ
รายละเอียดการฝังโมเดล
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/embedding-001 |
อินพุต | ข้อความ |
เอาต์พุต | การฝังข้อความ |
ขีดจำกัดโทเค็นอินพุต | 2,048 รายการ |
ขนาดมิติข้อมูลเอาต์พุต | 768 |
วิธีการสร้างที่รองรับ |
embed_content
embedContent
|
ความปลอดภัยของโมเดล | ไม่มีการตั้งค่าความปลอดภัยที่ปรับแต่งได้ |
ขีดจำกัดอัตรา[*] | คำขอ 1,500 รายการต่อนาที |
อัปเดตล่าสุด | ธันวาคม 2023 |
AQA
คุณสามารถใช้โมเดล AQA เพื่อทำงานที่เกี่ยวข้องกับการตอบคำถามที่มีการระบุแหล่งที่มา (AQA) ที่เกี่ยวข้องกับเอกสาร คลังข้อมูล หรือชุดข้อความ โมเดล AQA จะแสดงคำตอบของคำถามที่มีพื้นฐานมาจากแหล่งที่มาที่ให้ไว้ พร้อมกับการประมาณความน่าจะเป็นที่ตอบได้
รายละเอียดรุ่น
พร็อพเพอร์ตี้ | คำอธิบาย |
---|---|
รหัสรุ่น | models/aqa |
อินพุต | ข้อความ |
เอาต์พุต | ข้อความ |
วิธีการสร้างที่รองรับ |
GenerateAnswerRequest
generateAnswer
|
ภาษาที่รองรับ | อังกฤษ |
ขีดจำกัดโทเค็นอินพุต[**] | 7,168 |
ขีดจำกัดโทเค็นเอาต์พุต[**] | 1,024 คน |
ความปลอดภัยของโมเดล | การตั้งค่าความปลอดภัยที่ใช้โดยอัตโนมัติซึ่งนักพัฒนาแอปปรับได้ ดูรายละเอียดได้ที่หน้าการตั้งค่าความปลอดภัย |
ขีดจำกัดอัตรา[*] | 60 คำขอต่อนาที |
อัปเดตล่าสุด | ธันวาคม 2023 |
ดูตัวอย่างเพื่อสำรวจความสามารถของรูปแบบรูปแบบต่างๆ เหล่านี้
[*] โทเค็นจะมีจำนวนอักขระประมาณ 4 ตัวสำหรับโมเดล Gemini โทเค็น 100 รายการ มีคำภาษาอังกฤษประมาณ 60-80 คำ
[**] RPM: คำขอต่อนาที
TPM: โทเค็นต่อนาที
RPD: คำขอต่อวัน
TPD: โทเค็นต่อวัน
เนื่องจากขีดจำกัดของความจุ ระบบไม่รับประกันขีดจำกัดอัตราสูงสุดที่ระบุไว้
รูปแบบชื่อเวอร์ชันโมเดล
รุ่น Gemini มีให้ใช้งานทั้งในเวอร์ชันตัวอย่างหรือเวอร์ชันเสถียร ในโค้ด คุณสามารถใช้รูปแบบชื่อโมเดลแบบใดแบบหนึ่งต่อไปนี้เพื่อระบุโมเดลและเวอร์ชันที่ต้องการใช้
ล่าสุด: ชี้ไปยังโมเดลอันล้ำสมัยสำหรับรุ่นและรูปแบบที่ระบุ โมเดลที่สำคัญจะอัปเดตเป็นประจำและอาจเป็นเวอร์ชันตัวอย่าง มีเพียงแอปทดสอบและต้นแบบสำหรับการทดสอบในการสำรวจเท่านั้นที่จะใช้ชื่อแทนนี้ได้
หากต้องการระบุเวอร์ชันล่าสุด ให้ใช้รูปแบบต่อไปนี้:
<model>-<generation>-<variation>-latest
ตัวอย่างเช่นgemini-1.0-pro-latest
เวอร์ชันเสถียรล่าสุด: ชี้ไปยังเวอร์ชันเสถียรล่าสุดที่เผยแพร่สำหรับรุ่นและรูปแบบที่ระบุ
หากต้องการระบุเวอร์ชันเสถียรล่าสุด ให้ใช้รูปแบบต่อไปนี้:
<model>-<generation>-<variation>
เช่นgemini-1.0-pro
เสถียร: ชี้ไปที่โมเดลที่มีความเสถียรที่เจาะจง โมเดลที่เสถียรจะไม่เปลี่ยนแปลง แอปเวอร์ชันที่ใช้งานจริงส่วนใหญ่ควรใช้โมเดลที่เสถียรโดยเฉพาะ
หากต้องการระบุเวอร์ชันเสถียร ให้ใช้รูปแบบต่อไปนี้:
<model>-<generation>-<variation>-<version>
ตัวอย่างเช่นgemini-1.0-pro-001
ภาษาที่พร้อมใช้งาน
โมเดล Gemini ได้รับการฝึกให้ทำงานร่วมกับภาษาต่อไปนี้
- อาหรับ (
ar
) - เบงกาลี (
bn
) - บัลแกเรีย (
bg
) - จีนตัวย่อและดั้งเดิม (
zh
) - โครเอเชีย (
hr
) - เช็ก (
cs
) - เดนมาร์ก (
da
) - ดัตช์ (
nl
) - อังกฤษ (
en
) - เอสโตเนีย (
et
) - ฟินแลนด์ (
fi
) - ฝรั่งเศส (
fr
) - เยอรมัน (
de
) - กรีก (
el
) - ฮีบรู (
iw
) - ฮินดี (
hi
) - ฮังการี (
hu
) - อินโดนีเซีย (
id
) - อิตาลี (
it
) - ญี่ปุ่น (
ja
) - เกาหลี (
ko
) - ลัตเวีย (
lv
) - ลิทัวเนีย (
lt
) - นอร์เวย์ (
no
) - โปแลนด์ (
pl
) - โปรตุเกส (
pt
) - โรมาเนีย (
ro
) - รัสเซีย (
ru
) - เซอร์เบีย (
sr
) - สโลวัก (
sk
) - สโลวีเนีย (
sl
) - สเปน (
es
) - สวาฮีลี (
sw
) - สวีเดน (
sv
) - ไทย (
th
) - ตุรกี (
tr
) - ยูเครน (
uk
) - เวียดนาม (
vi
)