Gemma 3n：本地端多模態 AI 模型登場

Posted By owenou on 7 月 3, 2025 in Gemma, Google, Hugging Face, 技術導讀, 技術新訊 | 0 comments

從邊緣運算到多模態應用，Gemma 3n 正在為開源 AI 模型設下新標準。

在 2025 年 Google I/O 大會上，Gemma 3n 以預覽版身份首次亮相，即刻引爆設備端開發社群的熱烈討論。這款從零打造的多模態模型，不僅針對本地硬體運行而設計，還能原生處理圖像、文字、音訊與視訊等輸入類型，展現前所未有的靈活性與潛力。如今，Gemma 3n 正式全面開放於開源社群，並整合進多個主流函式庫中，包括 transformers、timm、MLX、llama.cpp、transformers.js、ollama 與 Google 自家的 AI Edge，讓這套模型真正落地應用不再遙不可及。

硬體極小化，效能極大化

Gemma 3n 的核心優勢，在於其創新的「E 系列模型」設計。兩個主要版本 ─ E2B 與 E4B，分別為基礎（base）與指令（instruction）兩種變體，各自對應約 5B 和 8B 的實際參數數量。然而，在模型架構與記憶體配置上的優化設計，讓它們僅需 2B 和 4B 等級的 VRAM（GPU 記憶體）即可運行，分別對應 2GB 與 3GB GPU。這項突破讓高品質模型得以在低功耗設備甚至行動裝置上流暢運行，徹底打破過去模型體積與硬體需求間的限制。

Size	Base	Instruct
2B	google/gemma-3n-e2b	google/gemma-3n-e2b-it
4B	google/gemma-3n-e4b	google/gemma-3n-e4b-it

跨模態架構下的新視野

Gemma 3n 並不僅是一個語言模型，它同時納入了視覺與音訊的處理能力，讓其跨模態理解成為可能。視覺模組採用最新版 MobileNet-V5（300M 參數），不僅支援 256×256、512×512、甚至 768×768 的高解析度輸入，在 Google Pixel 上更可實現 60FPS 的運算速度，效能超越 ViT Giant 同時參數量減少三倍。

音訊方面，Gemma 3n 建立在 Google 通用語音模型（USM）基礎上，可處理 160ms 音訊分塊，支援語音到文字的轉錄，甚至包含語音翻譯（如英文到西班牙語／法語等）。語音任務處理的表現，也讓其成為語音 AI 任務的有力候選模型。

MatFormer 架構：靈活與效率的兼得

Gemma 3n 採用了嶄新的 MatFormer 架構，靈感來自俄羅斯套娃（Matryoshka）的設計哲學。每層模型都像一個可拆解單元，讓使用者根據自己的硬體配置與記憶體預算，動態選擇要使用的層數，實現「Mix-and-Match」式的靈活部署。更進一步，每層嵌入還支援 CPU 卸載（PLE 技術），減少對加速器記憶體的依賴，使得像 E2B 這樣實際參數達 5B 的模型，也能在 2GB GPU VRAM 上順利運行。

音訊與視訊推論也因 KV 快取共享而加速，預填速度較過去版本（如 Gemma 3 4B）快上兩倍，大幅改善長上下文處理效能。

如果想測試一下這個模型，可在此Demo Space試試。

Gemma 3n Demo Space

準備好微調了嗎？免費 Colab 筆記本等你來用

Gemma 3n 的一大亮點，是其高度可微調的架構。由於模型本身具有模組化與精簡特性，開發者可根據不同下游任務，如語音辨識、多模態對話、視覺問答等，快速進行客製化調整。

Google 官方團隊更貼心提供了免費可用的 Google Colab 筆記本，不論是語言還是音訊任務，都有對應的實驗環境配置。這讓開發者能在幾分鐘內上手，針對自己的語料、資料集或應用場景進行微調與測試。

擁抱開源：Gemma Recipes 套件登場

為了讓社群能更快速部署與進行實驗，Google 也同步推出了 Hugging Face 上的 Gemma Recipes 專屬程式碼庫，內含完整的 notebooks、scripts、微調參考流程，涵蓋從模型載入、資料處理、訓練到部署的完整流程。不論你是資深 AI 開發者或是初學者，這份資源都能幫助你輕鬆啟動你的多模態 AI 專案。

性能基準與多語言能力

在性能基準測試上，Gemma 3n E4B 型號於 LMArena 成為首個在 10B 以下參數規模中突破 1300 分的模型，而在 MMLU 測試中也展現穩定優勢。它的多語言處理能力支援 140 種語言輸入，並能進行 35 種語言間的多模態互動，使其具備成為全球多語應用骨幹模型的潛力。

更輕、快、靈活的 AI 模型時代來臨

Gemma 3n 所帶來的不僅是一款模型，更是一個多模態 AI 的全新標竿。從模型設計、運行效能、微調便利性，到開源工具與資源的完整整合，它展現出 Google 在邊緣 AI 與跨模態模型領域的深厚實力。對於開發者而言，這是一個更自由、更高效、更開放的創作平台，而對整個 AI 生態系統而言，Gemma 3n 則是一場更具民主化意義的革新。

未來的 AI，不只是跑在雲端，而是真正跑在你手中。

》延伸閱讀：

Gemma 3n Release Collection

認識Gemma 3n及推論示範

在Colab上免費進行Fine Tune示範教學

notebook for fine-tuning on audio tasks

Hugging Face Gemma Recipes