หน้านี้ได้รับการแปลโดย Cloud Translation API

AI ในตัว

Kenji Baheux

Alexandra Klepper

เผยแพร่: 14 พฤษภาคม 2024 อัปเดตล่าสุด: 16 ตุลาคม 2024

เมื่อสร้างฟีเจอร์ด้วยโมเดล AI ในเว็บ เรามักจะใช้โซลูชันฝั่งเซิร์ฟเวอร์สำหรับโมเดลขนาดใหญ่ กรณีนี้เกิดขึ้นกับ Generative AI เป็นพิเศษ เนื่องจากแม้แต่โมเดลที่เล็กที่สุดก็ยังมีขนาดใหญ่กว่าขนาดหน้าเว็บม��ธยฐานประมาณหลายพันเท่า รวมถึงกรณีการใช้งาน AI อื่นๆ ด้วย ซึ่งมีขนาดโมเดลได้ตั้งแต่ 10 วินาทีถึง 100 เมกะไบต์ เนื่องจากโมเดลเหล่านี้ไม่ได้แชร์กันระหว่างเว็บไซต์ แต่ละเว็บไซต์จึงต้องดาวน์โหลดโมเดลเมื่อโหลดหน้าเว็บ ซึ่งวิธีนี้ใช้ไม่ได้สำหรับ นักพัฒนาซอฟต์แวร์และผู้ใช้

เรากําลังพัฒนา API ของแพลตฟอร์มเว็บและฟีเจอร์เบราว์เซอร์ที่ออกแบบมาเพื่อผสานรวมโมเดล AI รวมถึงโมเดลภาษาขนาดใหญ่ (LLM) เข้ากับเบราว์เซอร์โดยตรง ซึ่งรวมถึง Gemini Nano ซึ่งเป็น LLM เวอร์ชันที่มีประสิทธิภาพที่สุดในตระกูล Gemini ซึ่งออกแบบมาให้ใช้งานได้ทั้งในคอมพิวเตอร์เดสก์ท็อปและแล็ปท็อปที่ทันสมัยที่สุด เมื่อใช้ AI ในตัว เว็บไซต์หรือเว็บแอปพลิเคชันจะทํางานด้วยระบบ AI ได้โดยไม่ต้องติดตั้งใช้งานหรือจัดการโมเดล AI ของตนเอง

สำรวจประโยชน์ของ AI ในตัว แผนการติดตั้งใช้งาน และวิธีใช้ประโยชน์จากเทคโนโลยีนี้

ดูตัวอย่างก่อนเปิดตัว

เราต้องการความคิดเห็นของคุณเพื่อกำหนดรูปแบบ API, ตรวจสอบว่า API เป็นไปตามกรณีการใช้งานของคุณ และใช้เป็นข้อมูลในการพูดคุยกับผู้ให้บริการเบราว์เซอร์รายอื่นๆ เพื่อกำหนดมาตรฐาน

เข้าร่วมโปรแกรมตัวอย่างก่อนเปิดตัวเพื่อแสดงความคิดเห็นเกี่ยวกับแนวคิด AI ในตัวในระยะเริ่มต้น และค้นพบโอกาสในการ��ดสอบ API ��่��่��ะหว่างดำเนินการผ่านการสร้างต้นแบบในเครื่อง

เข้าร่วมกลุ่มประกาศสาธารณะสำหรับนักพัฒนาซอฟต์แวร์ AI ของ Chrome เพื่อรับการแจ้งเตือนเมื่อมี API ใหม่ให้ใช้งาน

ประโยชน์ของ AI ในตัวสําหรับนักพัฒนาเว็บ

เบราว์เซอร์จะจัดหาและจัดการโมเดลพื้นฐานและโมเดลผู้เชี่ยวชาญด้วย AI ในตัว

คําศัพท์สําคัญ: โมเดลผู้เชี่ยวชาญมุ่งเน้นที่กรณีการใช้งานที่เฉพาะเจาะจง ซึ่งส่งผลให้ประสิทธิภาพและคุณภาพสูงขึ้น โมเดลเหล่านี้แตกต่างจาก LLM ที่ใช้งานได้หลากหลายมาก เช่น คุณอาจสร้าง API การแปลภาษาด้วยโมเดลผู้เชี่ยวชาญที่มุ่งเน้นการแปลเนื้อหาเป็นภาษาใหม่ โดยโมเดลสำหรับผู้เชี่ยวชาญมักจะมีข้อกำหนดด้านฮาร์ดแวร์ต่ำ

AI ในตัวมีข้อดีต่อไปนี้เมื่อเทียบกับการสร้าง AI ฝั่งไคลเอ็นต์ของคุณเอง

ความง่ายในการใช้งาน: เมื่อเบราว์เซอร์เผยแพร่โมเดล จะพิจารณาความสามารถของอุปกรณ์และจัดการการอัปเดตโมเดล ซึ่งหมายความว่าคุณไม่มีหน้าที่รับผิดชอบในการดาวน์โหลดหรืออัปเดตโมเดลขนาดใหญ่ผ่านเครือข่าย คุณจึงไม่ต้องแก้ปัญหาเกี่ยวกับการปลดพื้นที่เก็บข้อมูล งบประมาณหน่วยความจำรันไทม์ ค่าใช้จ่ายการแสดงผล และปัญหาอื่นๆ
การเข้าถึงการเร่งด้วยฮาร์ดแวร์: รันไทม์ AI ของเบราว์เซอร์ได้รับการเพิ่มประสิทธิภาพเพื่อใช้ฮาร์ดแวร์ที่มีอยู่ให้เกิดประโยชน์สูงสุด ไม่ว่าจะเป็น GPU, NPU หรือใช้ CPU ��ทน ด้วยเหตุนี้ แอปจึงทำงานได้อย่างมีประสิทธิภาพสูงสุดในแต่ละอุปกรณ์

ข้อดีของการเรียกใช้ฝั่งไคลเอ็นต์

เมื่อใช้แนวทาง AI ที่มีมาในตัว การทำงานด้าน AI ฝั่งไคลเอ็นต์จึงไม่ใช่เรื่องง่าย ซึ่งส่งผลดีต่อข้อดีต่อไปนี้

การประมวลผลข้อมูลที่ละเอียดอ่อนในเครื่อง: AI ฝั่งไคลเอ็นต์ช่วยปรับปรุงเรื่องราวความเป็นส่วนตัวของคุณได้ เช่น หากคุณทำงานกับข้อมูลที่ละเอียดอ่อน คุณสามารถนำเสนอฟีเจอร์ AI ให้แก่ผู้ใช้ที่มีการเข้ารหัสจากต้นทางถึงปลายทาง
ประสบการณ์ของผู้ใช้ที่รวดเร็ว: ในบางกรณี การไม่ส่งข้อมูลไปและกลับจากเซิร์ฟเวอร์จะช่วยให้คุณแสดงผลลัพธ์ได้เกือบจะทันที AI ฝั่งไคลเ��็นต์อาจเป็นความแตกต่างระหว่างฟีเจอร์ที่ใช้ได้จริงและประสบการณ์ของผู้ใช้ไม่ดีพอ
การเข้าถึง AI ที่ดียิ่งขึ้น: อุปกรณ์ของผู้ใช้สามารถรองรับภาระงานในการประมวลผลบางอย่างเพื่อแลกกับการเข้าถึงฟีเจอร์มากขึ้น เช่น หากคุณเสนอฟีเจอร์ AI พรีเมียม คุณสามารถแสดงตัวอย่างฟีเจอร์เหล่านี้ด้วย AI ฝั่งไคลเอ็นต์เพื่อให้ผู้มีโอกาสเป็นลูกค้าเห็นประโยชน์ของผลิตภัณฑ์ได้ โดยที่คุณไม่ต้องเสียค่าใช้จ่ายเพิ่มเติม แนวทางแบบผสมนี้ยังช่วยให้คุณจัดการต้นทุนการอนุมานได้ โดยเฉพาะอย่างยิ่งในการไหลเวียนของผู้ใช้ที่ใช้บ่อย
การใช้งาน AI แบบออฟไลน์: ผู้ใช้เข้าถึงฟีเจอร์ AI ได้แม้ไม่ได้เชื่อมต่ออินเทอร์เน็ต ซึ่งหมายความว่าเว็บไซต์และเว็บแอปจะทํางานได้ตามที่คาดไว้แม้ออฟไลน์หรือมีการเชื่อมต่อที่ไม่เสถียร

AI แบบผสม: ฝั่งไคลเอ็นต์และฝั่งเซิร์ฟเวอร์

แม้ว่า AI ฝั่งไคลเอ็นต์จะจัดการกรณีการใช้งานได้มากมาย แต่ก็มีบางกรณีที่ต้องใช้การสนับสนุนฝั่งเซิร์ฟเวอร์

AI ฝั่งเซิร์ฟเวอร์เป็นตัวเลือกที่ยอดเยี่ยมสําหรับโมเดลขนาดใหญ่ แ��ะรองรับแพลตฟอร์มและอุปกรณ์ได้หลากหลายมากขึ้น

คุณอาจพิจารณาใช้แนวทางแบบผสมผสาน โดยขึ้นอยู่กับปัจจัยต่อไปนี้

ความซับซ้อน: กรณีการใช้งานที่เจาะจงและเข้าถึงได้ง่ายจะรองรับ AI ในอุปกรณ์ได้ง่ายกว่า สําหรับ Use Case ที่ซับซ้อน ให้พิจารณาการติดตั้งใช้งานฝั่งเซิร์ฟเวอร์
ความยืดหยุ่น: ใช้ฝั่งเซิร์ฟเวอร์โดยค่าเริ่มต้น และใช้ในอุปกรณ์เมื่ออุปกรณ์ออฟไลน์หรือมีการเชื่อมต่อที่ไม่เสถียร
การเปลี่ยนโหมดอย่างราบรื่น: การใช้เบราว์เซอร์ที่มี AI ในตัวต้องใช้เวลา อุปกรณ์บางรุ่นอาจไม่พร้อมใช้งาน และอุปกรณ์รุ่นเก่าหรือมีประสิทธิภาพต่ำอาจไม่เป็นไปตามข้อกำหนดด้านฮาร์ดแวร์ในการใช้งานทุกรุ่นอย่างมีประสิทธิภาพสูงสุด เสนอ AI ฝั่งเซิร์ฟเวอร์สำหรับผู้ใช้เหล่านั้น

สําหรับโมเดล Gemini คุณสามารถใช้การผสานรวมแบ็กเอนด์ (ด้วย Python, Go, Node.js หรือ REST) หรือติดตั้งใช้งานในเว็บแอปพลิเคชันด้วย SDK ไคลเอ็นต์ AI ของ Google สําหรับเว็บเวอร์ชันใหม่

สถาปัตยกรรมเบราว์เซอร์และ API

เราได้สร้างโครงสร้างพื้นฐานเพื่อเข้าถึงโมเดลพื้นฐานและโมเดลผู้เชี่ยวชาญสําหรับการดําเนินการในอุปกรณ์เพื่อรองรับ AI ในตัวของ Chrome โครงสร้างพื้นฐานนี้ช่วยขับเคลื่อนฟีเจอร์เบราว์เซอร์ที่ล้ำสมัยอยู่แล้ว เช่น ช่วยฉันเขียน

คุณสามารถเข้าถึงความสามารถของ AI ในตัวได้โดยใช้ Task API เป็นหลัก เช่น Translator API หรือ Summarizer API Task API ออกแบบมาเพื่อทำการอนุมานกับโมเดลที่ดีที่สุดสําหรับงาน

ใน Chrome API เหล่านี้สร้างขึ้นเพื่อเรียกใช้การอนุมานกับ Gemini Nano ด้วยการปรับแต่งแบบละเอียด��รือโมเดลผู้เชี่ยวชาญ Gemini Nano ออกแบบมาเพื่อทำงานแบบออนเครื่องในอุปกรณ์สมัยใหม่ส่วนใหญ่ จึงเหมาะสําหรับกรณีการใช้งานที่เกี่ยวข้องกับ��า��า เช่น การสรุป การถอดความใหม่ หรือการจัดหมวดหมู่

นอกจากนี้ เรายังมี API สําหรับการสํารวจ เช่น Prompt API เพื่อให้คุณทดสอบในเครื่องและแชร์ Use Case เพิ่มเติมได้

ในอนาคต เราอาจนำเสนอ LoRA API แบบสำรวจเพื่อปรับปรุงประสิทธิภาพของโมเดลในตัวด้วยการปรับน้ำหนักของโมเดล

แผนภาพนี้แสดงวิธีที่เว็บไซต์หรือแอปสามารถใช้ API แพลตฟอร์มเว็บสําหรับงานและการสํารวจเพื่อเข้าถึงโมเดลที่ฝังอยู่ใน Chrome

กรณีที่ควรใช้ AI ในตัว

ประโยชน์บางส่วนของ AI ในตัวสำหรับคุณและผู้ใช้มีดังนี้

การบริโภคเนื้อหาที่ปรับปรุงโดย AI: ซึ่งรวมถึงการสรุป การแปล การจัดหมวดหมู่ การสร้างลักษณะ และเป็นแหล่งความรู้
การสร้างเนื้อหาที่ AI สนับสนุน เช่น ความช่วยเหลือด้านการเขียน การพิสูจน์อักษร การ��ก้ไขไวยากรณ์ และการปรับแก้ข้อความ

ขั้นตอนถัดไป

เข้าร่วมโปรแกรมทดลองใช้ก่อนเปิดตัวเพื่อทดลองใช้ AI API ในตัว

ตอนนี้ Language Detector API พร้อมให้ใช้งานในช่วงทดลองใช้ต้นทางสำหรับการทดสอบเพิ่มเติม

ดูวิธีใช้ Gemini Pro ในเซิร์ฟเวอร์ของ Google กับเว็บไซต์และเว็บแอปของคุณในคู่มือเริ่มต้นใช้งาน Google AI JavaScript SDK