AI ในตัว

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

เวลาสร้างฟีเจอร์ด้วยโมเดล AI ในเว็บ เรามักจะใช้โซลูชันฝั่งเซิร์ฟเวอร์สำหรับโมเดลขนาดใหญ่ โดยเฉพาะอย่างยิ่งสำหรับ Generative AI ซึ่งแม้แต่โมเดลที่เล็กที่สุดก็อาจมีขนาดใหญ่กว่าขนาดหน้าเว็บมัธยฐานประมาณพันเท่า และสำหรับกรณีการใช้งาน AI อื่นๆ โมเดลอาจมีขนาดตั้งแต่ 10 ถึง 100 เมกะไบต์

เนื่องจากโมเดลเหล่านี้ไม่ได้แชร์ข้ามเว็บไซต์ แต่ละเว็บไซต์จึงต้องดาวน์โหลดรูปแบบดังกล่าวเมื่อโหลดหน้าเว็บ นี่เป็นโซลูชันที่นำไปใช้จริงไม่ได้ สำหรับนักพัฒนาแอปและผู้ใช้

แม้ว่า AI ฝั่งเซิร์ฟเวอร์เป็นตัวเลือกที่ยอดเยี่ยมสําหรับโมเดลขนาดใหญ่ แต่วิธีการทั้งในอุปกรณ์และแบบผสมจะมีข้อดีข้อเสียที่น่าสนใจเป็นของตัวเอง เพื่อให้วิธีการเหล่านี้ได้ผล เราต้องจัดการขนาดของโมเดลและการนำส่งโมเดล

ด้วยเหตุนี้ เราจึงพัฒนา API ของแพลตฟอร์มเว็บและฟีเจอร์เบราว์เซอร์ที่ออกแบบมาเพื่อผสานรวมโมเดล AI เช่น โมเดลภาษาขนาดใหญ่ (LLM) เข้ากับเบราว์เซอร์โดยตรง ซึ่งรวมถึง Gemini Nano ซึ่งเป็นเวอร์ชันที่มีประสิทธิภาพสูงสุดของ LLM ในตระกูล Gemini ซึ่งออกแบบมาให้ทำงานในพื้นที่ในคอมพิวเตอร์เดสก์ท็อปและแล็ปท็อปสมัยใหม่ส่วนใหญ่ได้ เมื่อใช้ AI ในตัว เว็บไซต์หรือเว็บแอปพลิเคชันจะทำงานด้วยระบบ AI ได้โดยไม่ต้องติดตั้งใช้งานหรือจัดการโมเดล AI ของตนเอง

ค้นพบประโยชน์ของ AI ในตัว แผนการนำไปใช้ และวิธีใช้ประโยชน์จากเทคโนโลยีนี้

ดูตัวอย่างก่อนใคร

เราต้องการข้อมูลจากคุณเพื่อกำหนด API ให้เป็นไปตาม Use Case ของคุณ และแจ้งข้อมูลเรื่องที่เราพูดคุยกับผู้ให้บริการเบราว์เซอร์รายอื่นๆ เกี่ยวกับการกำหนดมาตรฐาน

เข้าร่วมโปรแกรมทดลองใช้ก่อนเปิดตัวเพื่อแสดงความคิดเห็นเกี่ยวกับแนวคิด AI ในตัวในระยะเริ่มต้น และค้นพบโอกาสในการทดสอบ API ที่กำลังดำเนินการผ่านการสร้างต้นแบบในเครื่อง

เข้าร่วมกลุ่มประกาศสาธารณะสำหรับนักพัฒนาซอฟต์แวร์ AI ของ Chrome เพื่อรับการแจ้งเตือนเมื่อมี API ใหม่พร้อมให้ใช้งาน

ประโยชน์ของ AI ในตัวสำหรับนักพัฒนาเว็บ

เบราว์เซอร์จะมี AI ในตัวและจัดการพื้นฐานและโมเดลจากผู้เชี่ยวชาญ

AI ในตัวมีประโยชน์ดังต่อไปนี้เมื่อเทียบกับการทำงานด้วยตนเองโดย AI ในอุปกรณ์

  • การติดตั้งใช้งานได้ง่าย: เมื่อเบราว์เซอร์เผยแพร่รุ่นต่างๆ ระบบจะพิจารณาความสามารถของอุปกรณ์และจัดการการอัปเดตโมเดล ซึ่งหมายความว่าคุณไม่จำเป็นต้องดาวน์โหลดหรืออัปเดตโมเดลขนาดใหญ่ผ่านเครือข่าย คุณไม่จำเป็นต้องแก้ปัญหาเกี่ยวกับการเลิกใช้พื้นที่เก็บข้อมูล งบประมาณหน่วยความจำรันไทม์ ค่าใช้จ่ายการแสดงผล และปัญหาอื่นๆ
  • การเข้าถึงการเร่งฮาร์ดแวร์: รันไทม์ของ AI ของเบราว์เซอร์ได้รับการเพิ่มประสิทธิภาพเพื่อใช้ประโยชน์จากฮาร์ดแวร์ที่มีให้ได้มากที่สุด ไม่ว่าจะเป็น GPU, NPU หรือการกลับไปใช้ CPU ซึ่งส่งผลให้แอปทำงานได้อย่างมีประสิทธิภาพสูงสุดในอุปกรณ์แต่ละเครื่อง

ประโยชน์ของการเรียกใช้ในอุปกรณ์

วิธีการเกี่ยวกับ AI ที่มีมาในตัวทำให้การทำงานด้าน AI ในอุปกรณ์กลายเป็นเรื่องสำคัญ ซึ่งก็มีประโยชน์ดังนี้

  • การประมวลผลข้อมูลที่ละเอียดอ่อนในพื้นที่: AI ในอุปกรณ์ช่วยปรับปรุงเรื่องราวความเป็นส่วนตัวของคุณได้ เช่น หากทำงานกับข้อมูลที่ละเอียดอ่อน คุณสามารถเสนอฟีเจอร์ AI แก่ผู้ใช้ด้วยการเข้ารหัสจากต้นทางถึงปลายทางได้
  • ประสบการณ์ของผู้ใช้ที่รวดเร็ว: ในบางกรณี การไม่ส่งบริการไป-กลับไปยังเซิร์ฟเวอร์จะช่วยให้คุณนำเสนอผลลัพธ์ได้เกือบจะทันที AI ในอุปกรณ์อาจเป็นความแตกต่างระหว่างฟีเจอร์ที่ใช้งานได้กับประสบการณ์ของผู้ใช้ที่มีประสิทธิภาพต่ำกว่าเกณฑ์
  • การเข้าถึง AI ที่มากขึ้น: อุปกรณ์ของผู้ใช้จะช่วยแบ่งเบาการประมวลผลบางส่วนเพื่อแลกกับการเข้าถึงฟีเจอร์ต่างๆ มากขึ้น ตัวอย่างเช่น หากนำเสนอฟีเจอร์ AI แบบพรีเมียม คุณจะสามารถทดลองใช้ฟีเจอร์เหล่านี้ด้วย AI ในอุปกรณ์เพื่อให้ผู้มีโอกาสเป็นลูกค้าได้เห็นประโยชน์ของผลิตภัณฑ์โดยที่คุณไม่ต้องเสียค่าใช้จ่ายเพิ่มเติม แนวทางแบบผสมนี้สามารถช่วยคุณจัดการค่าใช้จ่ายในการอนุมานโดยเฉพาะในขั้นตอนการใช้งานของผู้ใช้บ่อยได้อีกด้วย
  • การใช้งาน AI แบบออฟไลน์: ผู้ใช้จะเข้าถึงฟีเจอร์ AI ได้แม้ว่าจะไม่มีการเชื่อมต่ออินเทอร์เน็ต ซึ่งหมายความว่าเว็บไซต์และเว็บแอปสามารถทำงานแบบออฟไลน์หรือที่มีการเชื่อมต่อที่ไม่แน่นอน

AI แบบไฮบริด: ในอุปกรณ์และฝั่งเซิร์ฟเวอร์

แม้ว่า AI ในอุปกรณ์จะจัดการ Use Case ที่หลากหลายได้ แต่ก็มีกรณีการใช้งานบางกรณีที่ต้องใช้การสนับสนุนฝั่งเซิร์ฟเวอร์

เช่น คุณอาจต้องใช้รูปแบบที่ใหญ่ขึ้นหรือรองรับแพลตฟอร์มและอุปกรณ์ที่หลากหลายมากขึ้น

คุณอาจพิจารณาใช้แนวทางแบบผสมโดยจะขึ้นอยู่กับสิ่งต่อไปนี้

  • ความซับซ้อน: กรณีการใช้งานที่เจาะจงและเข้าถึงได้จะรองรับ AI ในอุปกรณ์ได้ง่ายขึ้น สำหรับกรณีการใช้งานที่ซับซ้อน ให้พิจารณาใช้งานฝั่งเซิร์ฟเวอร์
  • ความยืดหยุ่น: ใช้ฝั่งเซิร์ฟเวอร์โดยค่าเริ่มต้น และใช้ในอุปกรณ์เมื่ออุปกรณ์ออฟไลน์หรือมีการเชื่อมต่อที่ไม่สม่ำเสมอ
  • ตัวเลือกสำรองอย่างนุ่มนวล: การใช้เบราว์เซอร์ที่มี AI ในตัวจะใช้เวลานาน บางรุ่นอาจไม่พร้อมใช้งาน และอุปกรณ์รุ่นเก่าหรือที่มีประสิทธิภาพน้อยกว่าอาจไม่เป็นไปตามข้อกำหนดด้านฮาร์ดแวร์สำหรับการเรียกใช้ทุกรุ่นได้อย่างมีประสิทธิภาพ มี AI ฝั่งเซิร์ฟเวอร์ให้ผู้ใช้เหล่านั้น

สำหรับโมเดล Gemini คุณสามารถใช้การผสานรวมแบ็กเอนด์ (กับ Python, Go, Node.js หรือ REST) หรือติดตั้งใช้งานในเว็บแอปพลิเคชันด้วย SDK ไคลเอ็นต์ AI ของ Google สำหรับเว็บ

สถาปัตยกรรมเบราว์เซอร์และ API

เราได้สร้างโครงสร้างพื้นฐานเพื่อเข้าถึงโมเดลพื้นฐานและโมเดลสำหรับผู้เชี่ยวชาญสำหรับการดำเนินการในอุปกรณ์เพื่อรองรับ AI ในตัวใน Chrome โครงสร้างพื้นฐานนี้ขับเคลื่อนฟีเจอร์เบราว์เซอร์ที่ล้ำสมัยอยู่แล้ว เช่น ช่วยฉันเขียน และจะเปิดตัว API สำหรับ AI ในอุปกรณ์ในเร็วๆ นี้

คุณจะเข้าถึงความสามารถของ AI ในตัวโดยใช้ API งานเป็นหลัก เช่น API การแปลหรือ API การสรุป Task API ออกแบบมาเพื่อเรียกใช้การอนุมานกับโมเดลที่ดีที่สุดสำหรับการมอบหมาย

ใน Chrome API เหล่านี้สร้างขึ้นเพื่ออนุมานเทียบกับ Gemini Nano ด้วยการปรับแต่งอย่างละเอียดหรือโมเดลผู้เชี่ยวชาญ Gemini Nano ออกแบบมาให้ทำงานเฉพาะในอุปกรณ์สมัยใหม่ จึงเหมาะสำหรับกรณีการใช้งานที่เกี่ยวข้องกับภาษา เช่น การสรุป การดัดแปลง หรือการจัดหมวดหมู่

นอกจากนี้ เราตั้งใจที่จะมี API สำหรับสํารวจเพื่อให้คุณทดสอบในเครื่อง และแชร์ Use Case เพิ่มเติมได้

ตัวอย่างเช่น เราอาจให้ข้อมูลต่อไปนี้

  • Prompt API: ส่งงานที่กำหนดเองซึ่งแสดงเป็นภาษาธรรมชาติไปยังโมเดลภาษาขนาดใหญ่ในตัว (Gemini Nano ใน Chrome)
  • Fine-tuning (LoRA) API: ปรับปรุงประสิทธิภาพ LLM ในตัวในงาน โดยการปรับน้ำหนักของโมเดลด้วย การปรับระดับต่ำ อย่างละเอียด
แผนภาพนี้แสดงให้เห็นวิธีที่เว็บไซต์หรือแอปของคุณสามารถใช้ API แพลตฟอร์มเว็บสำหรับทำงานและการสำรวจ เพื่อเข้าถึงโมเดลในตัวของ Chrome

กรณีที่ควรใช้ AI ในตัว

เราคาดว่า AI ในตัวจะมีประโยชน์กับคุณและผู้ใช้ดังต่อไปนี้

  • การบริโภคเนื้อหาที่เพิ่มประสิทธิภาพด้วย AI: รวมถึงการสรุป การแปล การตอบคำถามเกี่ยวกับเนื้อหาบางอย่าง การจัดหมวดหมู่ และการกำหนดลักษณะเฉพาะ
  • การสร้างเนื้อหาที่ AI รองรับ: เช่น ตัวช่วยในการเขียน การพิสูจน์อักษร การแก้ไขไวยากรณ์ และการเรียบเรียงเพลง

ขั้นตอนถัดไป

เข้าร่วมโปรแกรมทดลองใช้ก่อนเปิดตัวเพื่อทดลองใช้ AI API ในตัวที่อยู่ในระยะเริ่มต้น

ในระหว่างนี้ คุณดูวิธีใช้ Gemini Pro บนเซิร์ฟเวอร์ของ Google กับเว็บไซต์และแอปบนเว็บได้ในการเริ่มต้นอย่างรวดเร็วสำหรับ Google AI JavaScript SDK