|

Gemini Robotics的突破: 賦與機器人高等「思考能力」

   

作者:歐敏銓

從LLM、VLM到VLA,AI模型快速變遷,影響領域也愈來愈大,進入2026 年,預估機器人產業將經歷一場從「自動化」到「自主化」的根本變革。

過去,機器人需要工程師為每一行動作寫死代碼;如今,Google DeepMind 推出的 Gemini Robotics 讓機器人具備了如同人類般的「常識推理」與「視覺規劃」能力。這不僅僅是技術的演進,更是一場關於邏輯如何產生力矩的哲學革命——意即 AI 的高層思考,已能精確導向物理世界的精準出力。

重新定義機器人的腦迴路

Gemini Robotics的核心競爭力在於其 VLA (Vision-Language-Action) 架構。這項技術徹底打破了感知與動作之間的隔閡,將視覺感知的圖像、人類的自然語言指令與機器人的物理動作輸出,無縫整合在同一個神經網絡中。這與過往「視覺辨識+語言理解+動作路徑規劃」的三層分離架構有著天壤之別,其關鍵技術剖析如下:

1. 實體推理與長序列規劃

Gemini Robotics 1.5 繼承了 Gemini 家族強大的長上下文處理能力。在機器人身上,這轉化為對複雜、多步驟任務的理解。它能理解「清空水槽並把碗盤分類放進洗碗機」是一個包含抓取、識別、路徑避障、精細置放的長鏈條任務。即使中間有人干擾,它也能根據現況即時重新規劃。

2. 極致的「觸覺」靈巧度(Dexterity)

透過大量的遠端操作數據(Teleoperation)與強化學習,Gemini 賦予機器人執行「精細動作」的能力。在 2025 年底的技術演示中,搭載 Gemini 的機器人已經能完成摺疊紙飛機、甚至替傷口貼上 OK 繃等高難度動作。這種對壓力和精確度的掌控,來自於其內部將視覺特徵與電機力矩指令(Motor Torques)深度融合的結果。

3. 多模態泛化能力

這或許是它最強大的特色:「通用性」。同一套模型,可以運行在靜止的工業機械臂 ALOHA 上,也能無縫遷移到輪式物流機器人或人形機器人中。它不需要為每個新環境重新訓練,而是像人類一樣,具備「常識」與「類比」能力。

當 VLA 遇上雙軌思考:大腦的變速箱

Gemini Robotics 令人驚豔的創新很多,其中最引人注目的創新,莫過於 Thinking Budget(思考預算) 與Thinking Level(思考等級) 的協同運作。這兩個概念雖然相關,但應用的面向完全不同:一個決定「思考的深度(品質)」,另一個決定「思考的規模(資源)」。

Thinking Budget 像是一台資源分配器,讓機器人在簡單避障時以極速反應,而在長程複雜任務中投入更多計算資源;而 Thinking Level 則是機器人的「邏輯變速箱」。當切換至高階等級時,啟動的 Deep Think 模式讓機器人學會了「內省」。在動手前,它會在腦中模擬重心變化、判斷物體材質,這種邏輯推理最終會轉化為關節處精準的力矩輸出。這意味著機器人不再只是死板地移動,而是能根據「邏輯」來決定抓取的溫柔或堅定。

其中Thinking Budget機制讓機器人不再只是死板地執行指令,而是能根據任務難度進行權衡。在面對簡單的避障時,它能以低預算模式追求極速反應;但在執行如摺紙或組裝複雜零件等長程任務時,它會切換至高預算模式,在動手前於腦中進行多步模擬與空間推理,判斷物體的重心變化與最佳抓取點。

而與量化的思考預算相對應,思考等級則定義了機器人大腦的「邏輯密度」。它像是一台擁有不同檔位的精密變速箱:當設定在「基本等級」時,機器人依賴的是直覺式的感知反應,能流暢地處理如搬運空箱或簡單路徑規劃等例行公事;然而,一旦切換至「高階等級」(High Level),便會啟動 Gemini 3 的 Deep Think 模式。

在這一模式下,機器人不再僅僅是觀察與輸出,而是會進入一種「內省」狀態,產生隱藏的推理鏈。它會針對當前的複雜情境進行反覆辯證——例如,在組裝精密電路板時,它會自我質問:「如果我現在施加這個力道,是否會損傷下方的排線?」或「當前的光影遮擋是否導致我誤判了深度?」

這種高等級的思考,讓機器人具備了出色的自我修正容錯能力,使其在面對精密工藝或高風險環境時,展現出如同資深工匠般的專業判斷力。

這種雙軌制讓開發者能達成前所未有的精準控制:在需要極致安全的場景下調高等級,在需要即時回應的動態環境中限制預算。這套組合拳解決了 AI 長期以來的「黑盒」問題,透過輸出的思考摘要(Thought Summary),人類工程師終於能第一次看清,機器人在動手之前究竟在「想」什麼。

這種「三思而後行」的能力,正是 Gemini 賦予機器人的靈魂所在。

》延伸閱讀:如何使用 Gemini API,運用 Gemini 的思考能力(官方指南)

機器人三重奏:ALOHA、Franka 與 Apollo 的協同演化

在 Gemini Robotics 的願景中,沒有任何一個硬體能獨自完成通用智能的使命。Google 選擇了三款截然不同的機器人平台,構建出一套從數據採集到終端執行的完整生態系。

1. ALOHA

這場技術革命的起點往往發生在 ALOHA 身上。這套由史丹佛大學主導的Mobile ALOHA低成本雙臂遙操作系統,在此生態中扮演著「教練機」的角色。人類工程師透過操作 ALOHA 展現各種精細動作,如剝皮或摺疊衣物,而 Gemini 則像個勤奮的學徒,從這些「專家數據」中擷取動作權重。(影片來源

 

2. Bi-arm Franka

隨後,這些學到的技能會在 Bi-arm Franka 身上進行精煉。作為工業級協作機器臂的標竿,Franka 具備極其敏銳的力感應能力。Gemini 在這裡接受最嚴苛的考驗,驗證其推理指令在精準組裝任務中的物理表現,確保大腦發出的指令與真實世界的反饋完全同步。

3. Apollo

最終,所有的智慧結晶都會匯聚到 Apptronik Apollo 這位「全能執行者」身上。身為身高 173 公分的人形機器人,Apollo 負責將 Gemini 的跨機體學習能力帶進人類的真實環境。透過運動轉移技術,Gemini 讓 Apollo 能直接繼承在 ALOHA 和 Franka 上學到的精細動作,並應用於動態的工廠或倉庫中。這種「大腦跨機體移植」的能力,徹底解決了機器人領域長期存在的硬體碎片化痛點。

開源與閉源之間:大腦在雲端,身體在本地

對於開發者最關心的權重開放議題,Google 採取了「策略性開放」的混血模式。雖然 Gemini 旗艦模型的權重目前仍屬閉源,並透過 API 形式提供存取,但其生態戰略卻與開源社群高度掛鉤。

透過 Google Robotics SDKHuggingFace LeRobot 專案的深度兼容,Google 巧妙地將「閉源旗艦大腦」與「開源敏捷身體」結合在一起。開發者不再需要負擔高昂的算力成本,只需在本地使用如 ALOHA或SO-ARM100 這種低成本開源硬體收集數據,再透過 API 串接 Gemini 的雲端推理能力。這種模式大幅降低了新世代 VLA 機器人的開發門檻,讓具身智能不再是科技巨頭的專屬遊戲。

發展現況

時至 2026 年,Gemini Robotics 已不只是實驗室的玩物,而是進入了「規模化驗證」階段。

  • 雲端與邊緣的混合動力: 為了應對工業現場不穩定的網路環境,Google 推出了 Gemini Robotics On-Device(端側模型)。這讓機器人具備了「反射動作」等級的離線處理能力,而複雜的策略邏輯則交由雲端的 Gemini 3 Deep Think 模式處理。

  • 生態系結盟: Google 並不打算自造硬體,而是選擇與 Apptronik、Universal Robots 等硬體大廠合作。目前在全球多個自動化倉儲與精密實驗室中,已經可以看到「Powered by Gemini」的機器人正在進行藥品分裝或電子零件組裝。

結語

在 2026 年的今天,Gemini Robotics 面對著 NVIDIA Isaac GR00T 的強大算力與 OpenAI Figure 01 的流暢互動,其差異優勢在於對「常識與推理」的深刻理解。它不僅是一個更聰明的 API,更是一個通往通用機器人的藍圖。

Gemini Robotics 的意義,不在於創造一個完美的機器僕人,而是在於證明了:智慧可以被賦予重量,邏輯可以產生力矩。 2026 年,機器人不再是冷冰冰的工業設備,而是具備「常識」、能聽懂人話、並能感知世界溫度的合作夥伴。

》延伸閱讀:

owenou
讓模型跑得更像實機:Google AI Edge Portal 如何重塑行動端 ML 部署流程

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: owenou

歐敏銓(Owen)曾投身IT、電子科技媒體報導十多年,因認同Maker運動的創新實作精神,創立MakerPRO社群媒體平台,致力結合媒體、產業與PRO Maker、開發者的社群力量,共同推展科技創造力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *