隨著人工智慧技術進入多模態與自主決策的新階段,NVIDIA與Google分別提出其通用型機器人AI(Generalist Robot AI)架構,顯示出兩家公司都朝向能適應多樣任務與環境的機器人智慧邁進。本文將從兩者的相似性與互補性進行探討,以提供對通用機器人AI合作與融合可能性的全貌理解。
技術相似性 #
NVIDIA與Google在通用機器人AI的發展上展現出高度一致的方向。雙方皆採用Transformer為核心架構,融合視覺、語言與動作資訊,並強調多任務學習與模型泛化能力。他們透過模擬環境、實體操作與大規模資料進行訓練,力求模型在現實環境中表現穩定。兩家公司也致力於開放技術資源(如Isaac Lab、RT-2代碼庫),促進社群合作與標準制定。這些相似性標誌著通用機器人AI正在向模組化與通用架構靠攏,促進跨平台整合與應用發展。

NVIDIA與Google針對通用機器人AI技術的相似性比較表
技術競爭與互補性 #
即使雙方展現出高度一致的發展方向,但在技術堆疊與平台競爭方面仍有頗多差異之處。NVIDIA專注於從模擬、訓練到部署的完整機器人控制鏈,提供如Isaac Sim與Omniverse等高擬真模擬平台,並結合GPU運算優勢,強化模擬到實體部署(Sim2Real)的轉移能力。相較之下,Google則著重於語意理解與多模態推理,透過RT-2與Gemini等大型模型,讓機器人能以自然語言接受指令並做出泛化行為。

NVIDIA與Google針對通用機器人AI技術的強項及弱項比較
但換個角度看,兩家優勢上的差異,其實可看成是技術上的互補性。例如在控制層面上,NVIDIA更擅長感知與運動執行,而Google則強於策略生成與任務決策。這種分工讓NVIDIA成為硬體與控制層的主力,而Google則扮演機器人「大腦」的角色,雙方競爭中蘊藏整合潛力。

NVIDIA與Google針對通用機器人AI技術的相似性比較表
小結 #
展望未來,兩大領導廠商若能整合彼此的核心優勢,並促進模型互通與API標準化,例如利用NVIDIA模擬環境產生語意標註資料供Google模型訓練,並建立結合語言推理與物理控制的混合架構,勢必能加速打造出具備高度語意理解能力、可在真實環境中靈活操作的通用機器人。
(編輯整理:歐敏銓;參考工具:ChatGPT)
》延伸閱讀:
Physical AI近了!如何打造「通用又專才」的機器人?