Google 推出 Gemma 4 開源模型:「本地端推理」強化 AI 代理工作流效率

ChainNewsAbmedia

Google 於 2026 年 4 月 2 日正式發布 Gemma 4,作為迄今為止最強大的開源模型之一,Gemma 4 在原生函數調用、代理工作流程、多模態感知方面實現重大突破,並採用商業友好的 Apache 2.0 授權,為全球開發者與企業帶來前所未有的自由度與靈活性。

Gemma 4 是什麼?核心特色一次看

Gemma 4 是 Google DeepMind 推出的開源大型語言模型系列,與 Gemini 系列模型共享技術。核心亮點包括:

進階推理能力:支援多步驟規劃與深層邏輯推理,在數學與指令遵循基準測試上大幅超越同級開源模型。

原生代理工作流:內建函數調用、結構化 JSON 輸出與系統指令支援,可直接驅動自主 AI 代理與多步驟任務執行。

本地端部署:E2B、E4B 版本專為手機等各設備優化,可完全離線運行。

全面多模態支援:所有版本原生支援圖片與影片輸入;E2B、E4B 額外支援原生音訊輸入。

超長上下文視窗:邊緣模型支援 128K token,較大模型最高達 256K token,可在單次提示中傳入整個程式碼庫或長篇文件。

高品質程式碼生成:支援離線程式碼編寫,可將個人工作站打造為本地優先的 AI 程式設計助手。

140+ 語言原生訓練:支援全球超過 140 種語言,助力開發者打造服務國際用戶的多語系應用。

四種模型,最大化支援所有應用場景

Gemma 4 共推出四種版本,針對不同硬體環境與應用場景進行優化:

Effective 2B(E2B):專為行動裝置與 IoT 設計,支援 128K 上下文視窗、原生音訊輸入,可完全離線運行於 Android 手機、Raspberry Pi 等邊緣設備。

Effective 4B(E4B):同樣針對邊緣端優化,具備多模態能力,在推理效能與記憶體佔用之間取得出色平衡。

26B 混合專家(MoE):推理時僅激活 38 億參數,以極低延遲實現高速推理,適合注重吞吐量的本地工作站部署。

31B Dense:旗艦版本,在 Arena AI 文字排行榜上排名第三,提供最高品質的輸出,並可在單張 80GB NVIDIA H100 GPU 上完整運行。

26B MoE 與 31B Dense 的量化版本更能在消費級顯示卡上原生執行,讓強大的 AI 推理能力真正普及到個人開發者的桌面。

本地端推理的重大突破:告別 API 依賴

Gemma 4 最受矚目的特點之一,在於強調「本地端(On-device)推理」能力。E2B 與 E4B 模型專為最大化運算效率與記憶體效率而設計,可在手機、Raspberry Pi、NVIDIA Jetson Orin Nano 等邊緣設備上以近乎零延遲的運行。

這對開發者影響甚大,過去調用雲端 AI API 需要承擔每次請求的費用,且存在網路延遲與資料隱私風險。而 Gemma 4 的本地端推理能力,讓開發者能在自有硬體上運行模型,大幅降低 API 調用成本,同時享有完整的資料主權與離線可用性。

Google 更與 Pixel 團隊及高通、聯發科等行動硬體夥伴緊密合作,確保 E2B/E4B 在主流 Android 裝置上達到最佳效能,並為 Android 開發者開放 AICore Developer Preview,以便為整合 Gemini Nano 4 進行開發。

強化 AI 代理工作流,原生函數調用提高效率

Gemma 4 在代理工作流(Agentic Workflows)方面也實現了原生支援,這是與上一代最顯著的功能躍升之一。該模型支援:

原生函數調用(Function Calling):模型可直接調用外部工具與 API,執行實際操作,例如查詢資料庫、呼叫第三方服務等。

結構化 JSON 輸出:確保模型輸出符合特定格式,便於與後端系統無縫整合。

原生系統指令(System Instructions):開發者可在系統層級設定模型行為,讓 AI 代理的角色設定更加穩定一致。

這些能力讓 Gemma 4 得以成為一個全能的自主 AI 代理,不僅能回答問題,更能主動與工具互動、自動執行多步驟工作流程。

多模態全面升級:視覺、音訊、長文一應俱全

Gemma 4 全系列模型均具備原生多模態能力,大幅擴展了可處理的任務類型。

圖片與影片

在視覺理解方面,所有模型均支援圖片與影片的原生處理,支援可變解析度,在 OCR(光學字元辨識)與圖表理解等視覺任務上表現突出。

音訊輸入

在音訊方面,E2B 與 E4B 邊緣模型額外支援原生音訊輸入,可直接進行語音辨識與理解,無需額外的語音轉文字步驟。

超長上下文

在文件方面,邊緣模型支援 128K token 上下文視窗,較大模型更提供高達 256K token,讓開發者能在單次提示中傳入整個程式碼庫或長篇文件。

離線程式碼生成

支援高品質離線程式碼編寫,可將個人工作站化身為本地優先的 AI 程式設計助手。

140+ 語言支援

原生訓練超過 140 種語言,助力開發者打造服務全球用戶的應用。

Apache 2.0 授權:開源生態里程碑

Gemma 4 採用 Apache 2.0 授權發布,這是開源社群中商業友好度最高的授權之一。開發者與企業可自由使用、修改、分發模型,無論是部署在私有基礎設施、混合雲環境,還是嵌入商業產品中,均不受額外限制。

豐富的生態系統支援

Gemma 4 同時獲得業界主要工具的全面支援,包括 Hugging Face(Transformers、TRL、Transformers.js)、Ollama、vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM 與 NeMo、Keras、Vertex AI 等。

開發者可透過 Hugging Face、Kaggle 或 Ollama 直接下載模型權重,並在 Google AI Studio 中線上體驗 31B 與 26B MoE 版本,或透過 Google AI Edge Gallery 試用 E2B 與 E4B 版本。

對於需要大規模部署的企業,Google Cloud 提供完整的雲端解決方案,涵蓋 Vertex AI、Cloud Run、GKE、Sovereign Cloud 以及 TPU 加速推理服務,消除本地算力的上限限制。

降低成本但不犧牲能力:Gemma 4 成開發者新選擇

Gemma 4 的發布是開源 AI 模型的一個里程碑,作為具備生產部署能力的企業級工具,它能夠在手機上離線運行、調用外部工具自主完成任務、處理冗長文件與多模態輸入,同時讓所有人得以自由使用。

對於想要在降低 API 調用成本的同時保有 AI 能力的開發者與企業來說,Gemma 4 提供了一條極具吸引力的路徑。

這篇文章 Google 推出 Gemma 4 開源模型:「本地端推理」強化 AI 代理工作流效率 最早出現於 鏈新聞 ABMedia。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento