發布日期:2024 年 5 月 14 日,上次更新日期:2024 年 10 月 16 日
在網路上使用 AI 模型建構功能時,我們通常會使用伺服器端解決方案來處理大型模型。這一點在生成式 AI 的情況下尤其明顯,因為即使是最小的模型,其大小也比中位網頁大小大上約一千倍。其他 AI 用途也是如此,模型的大小可能介於 10 到 100 兆位元之間。由於這些模型不會在不同網站之間共用,因此每個網站都必須在網頁載入時下載這些模型。這對開發人員和使用者來說並不切合實際。
我們正在開發網頁平台 API 和瀏覽器功能,旨在將 AI 模型 (包括大型語言模型 (LLM)) 直接整合至瀏覽器。其中包括 Gemini Nano,這是 Gemini 系列中最有效率的 LLM 版本,此版本設計為在新型桌機和筆電本機上執行。有了內建 AI 技術,您的網站或網頁應用程式就能執行 AI 技術輔助的作業,不必部署或管理自己的 AI 模型。
瞭解內建 AI 的優點、我們的實作計畫,以及如何善用這項技術。
搶先試用
我們需要您的意見來打造 API,確保 API 符合您的用途,並讓我們與其他瀏覽器廠商討論以進行標準化。
加入搶先預覽計畫,針對內建 AI 概念提供意見回饋,並透過本機原型設計,找出測試開發中的 API 的機會。
加入 Chrome AI 開發人員公開公告群組,即可在新的 API 推出時收到通知。
網頁程式開發人員適用的內建 AI 技術優勢
瀏覽器會透過內建 AI 提供及管理基礎和專家模型。
相較於建構自己的用戶端 AI,內建 AI 具有下列優點:
- 輕鬆部署:瀏覽器會在發布模型時考量裝置的功能,並管理模型的更新作業。也就是說,您不必負責透過網路下載或更新大型模型。您不需要解決儲存空間清除問題、執行階段記憶體預算、提供成本等挑戰。
- 存取硬體加速功能:瀏覽器的 AI 執行時間已經過最佳化,可充分利用可用的硬體,例如 GPU、NPU 或 CPU。因此,您的應用程式可以在每部裝置上獲得最佳效能。
執行用戶端的好處
有了內建 AI 方法,在用戶端執行 AI 作業就變得輕而易舉,進而帶來下列優點:
- 在本機處理機密資料:用戶端 AI 可以改善隱私權故事。舉例來說,如果您要處理機密資料,可以為使用者提供端對端加密的 AI 功能。
- 快速的使用者體驗:在某些情況下,捨棄與伺服器的來回通訊,可讓您提供幾乎即時的結果。用戶端 AI 技術可提供可行功能,或提供次佳的使用者體驗。
- 擴大 AI 存取權:使用者的裝置可承擔部分處理負載,以便使用更多功能。舉例來說,如果您提供進階 AI 功能,可以透過用戶端 AI 預覽這些功能,讓潛在客戶瞭解產品的優點,而您也不必額外付費。這種混合方法也可協助您管理推論成本,特別是針對經常使用的使用者流程。
- 離線 AI 使用情形:即使沒有網際網路連線,使用者仍可使用 AI 功能。這表示您的網站和網頁應用程式可在離線或變換連線的情況下正常運作。
混合式 AI:用戶端和伺服器端
雖然用戶端 AI 可以處理大量的用途,但在某些情況下需要伺服器端支援。
伺服器端 AI 是大型模型的絕佳選擇,而且可支援更多平台和裝置。
您可以考慮採用混合方法,具體取決於:
- 複雜度:特定且容易上手的用途更容易透過裝置端 AI 技術支援。如果用途複雜,請考慮採用伺服器端實作方式。
- 彈性:預設使用伺服器端,當裝置離線或連線不穩定時,則使用裝置端。
- 優雅的備用方案:採用內建 AI 的瀏覽器需要時間,部分模型可能無法使用,舊版或效能較低的裝置可能無法滿足執行所有模型的硬體需求。為這些使用���提供伺服器端 AI。
針對 Gemini 模型,您可以使用後端整合功能 (搭配 Python、Go、Node.js 或 REST),也可以在網路應用程式中使用新的 Google AI 用戶端 SDK for Web 進行實作。
瀏覽器架構和 API
為了支援 Chrome 內建的 AI 技術,我們建立了基礎架構,可存取基礎和專家模型,以便在裝置上執行。該基礎架構已賦予創新瀏覽器功能,例如「幫我寫」。
您主要可以透過工作 API 存取內建 AI 功能,例如 譯者 API 或 Summarizer API。任務 API 的設計目的,是針對指派作業執行最佳模型的推論。
在 Chrome 中,這些 API 是專門透過微調或專家模型來針對 Gemini Nano 執行推論。Gemini Nano 是專為在大多數現代裝置上執行而設計,最適合用於語言相關用途,例如摘要、改寫或分類。
另外,我們也提供探索性 API (例如 Prompt API),方便您在本機進行實驗及分享其他用途。
日後我們可能會提供探索性 LoRA API,藉由調整模型的權重來改善內建模型的效能。
內建 AI 技術的使用時機
以下列舉內建 AI 技術可為您和使用者帶來的益處:
- AI 強化內容消費行為:包括摘要、翻譯、分類、特徵化,以及知識提供者。
- AI 輔助內容創作:例如撰文輔助、校對、文法校正和改寫。
後續步驟
Language Detector API 現已開放來源試用,可進一步測試。
請參閱 Google AI JavaScript SDK 快速入門指南,瞭解如何在 Google 伺服器上使用 Gemini Pro 搭配您的網站和網頁應用程式。