邁向具身智慧的下一站：群雄並起的「世界模型」競技場

Posted By owenou on 5 月 14, 2026 in World Model, 技術導讀, 技術新訊, 綜論 | 0 comments

當前人工智慧的發展正處於一個關鍵的轉捩點：文字與邏輯的堡壘已被攻克，下一步則是奪取「空間與動作」的高地。這是一場關於「物理定律與機率統計」的文明戰爭，各界菁英紛紛意識到，僅僅在螢幕後方吞噬數據是不夠的。

我們正進入一個「世界模型（World Models）」群雄並起的競技場，核心目標是賦予 AI 真正的「具身智慧（Embodied AI）」。AI 必須擁有一副能夠感知物理維度、預判因果律的「身體」，無論是穿梭於數位孿生的虛擬世界，還是行走在真實的物理街道，唯有當 AI 開始與現實互動，它才能從單純的語言處理器進化為能理解萬物運作規律的智慧主體。

目前在此領域有所建樣的技術領航者，除了本刊報導過的NVIDIA方案（Cosmos 世界模型平台及Project GR00T ）及前文報導的AMI Labs外，還有哪些單位或廠商已有建樹？以下將介紹幾個值得關注的技術代表。

1. Google DeepMind 的 Genie 3 與 SIMA 2

在當前的 AI 競爭版圖中，Google DeepMind 依然穩坐「虛擬環境代理人」領域的第一把交椅。如果說語言模型賦予了AI思考的能力，那麼 DeepMind 則致力於為 AI 打造一副能與世界互動的「身體」與「常識」。DeepMind透過在 Genie 3 生成的世界中反覆磨練，讓AI代理人 – SIMA 習得如何精準地操控物體、應對複雜地形。

虛擬環境並非最終目的，而是機器人學習「動作常識」的實驗場。

Genie 3 的出現，徹底打破了傳統 3D 建模與遊戲引擎的繁瑣流程。它不再僅僅是生成一段不可更改的影片，而是一個能從單張圖片、草圖甚至一段簡單文字描述中，即時演算出「可互動 3D 空間」的神經網路模型。

與過去的版本相比，Genie 3 在物理真實度上取得了突破性的進展：

動態流體力學： 當玩家在生成的環境中穿過水池，水面會產生精確的波紋與四濺的水花，甚至倒影也會隨之扭動。
物理碰撞邏輯： 物體不再是虛擬的貼圖，而是具備質量的實體。當施加外力時，物體會遵循重力、摩擦力與碰撞反彈邏輯移動。

這種技術的核心價值在於，它為 AI 提供了一個無限且廉價的「數位沙盒」，讓機器人能在進入現實世界前，先在模擬環境中理解物理規律。

SIMA：賦予代理人「人類般的靈魂」

然而，有了精細的世界，還需要具備智慧的居民。這便是 SIMA（可擴展、多用途、通用代理人） 登場的時刻。不同於傳統遊戲中依賴預設腳本的 NPC，SIMA 是一個經過通用訓練的 AI 代理人。

》建伸閱讀：DeepMind Blog：SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds

在最近的測試中，SIMA 2 已展現出驚人的適應力。它可以直接理解自然語言指令（例如：「去那座山上找水源」或「幫我把箱子推到角落」），並像人類玩家一樣，透過視覺輸入與控制介面在多款不同的 3D 遊戲環境中自由穿梭。

2. 空間智慧的開拓者：World Labs 與李飛飛的視覺新局

如果說 DeepMind 的強項在於模擬動作邏輯，那麼由「AI 教母」李飛飛（Fei-Fei Li）於 2024 年底強勢創立的 World Labs，則代表了另一條至關重要的賽道：「空間智慧（Spatial Intelligence）」。李飛飛深信，若 AI 想要像人類一樣理解世界，就必須具備感知三維空間、理解幾何結構以及預測物理互動的能力。

空間智慧不僅是看見影像，而是理解「物體在空間中如何存在」。這種能力將使 AI 從虛擬的螢幕走入現實的立體世界。

Marble 架構：重建真實世界的幾何邏輯

World Labs 的核心技術在於其自主開發的 Marble 架構。這項技術的出現，標誌著視覺 AI 處理方式的根本轉變。傳統的生成式 AI 多半是基於 2D 圖像的機率堆疊，透過像素的預測來「拼湊」出外觀；然而 Marble 架構則是從底層邏輯出發，讓 AI 真正理解 3D 空間的幾何本質。

這意味著，當 Marble 觀察一個室內場景時，它看到的不是一張平面的照片，而是：

深度的感知： 精確計算牆面、家具與觀測者之間的距離。
物體的恆常性： 理解桌子後方被遮擋的空間依然存在，並能推論出其完整的物理體積。
物理關聯性： 辨識出哪些物體是支撐面，哪些物體具有重心，從而理解環境的結構穩定性。

空間智能：自動駕駛與 AR 的終極大腦

在當前的技術版圖中，World Labs 的競爭點顯得極具策略性。相較於其他模型專注於「動作指令」的執行，World Labs 更專注於「視覺與空間的精確建模」。這種高精度的空間感知能力，正是解決許多現實挑戰的最後一塊拼圖。

對於自動駕駛而言，這意味著車輛不再僅僅依賴感測器數據的羅列，而是能像資深駕駛一樣，對複雜路口進行 3D 直覺判斷；對於擴增實境（AR）與混合實境（MR），World Labs 的技術能讓虛擬物件完美地「嵌入」現實物理結構中，消除漂移與穿模的違和感。

3. 行駛在模擬中的現實：Wayve 與 Waymo 的世界模型革命

自動駕駛領域或許是人類科技史上最嚴苛的試煉場，因為這裡不容許任何邏輯上的「幻覺」。在複雜多變的路況中，傳統基於規則（Rule-based）的寫死程式已捉襟見肘，這迫使自動駕駛企業集體轉向，放棄純粹的規律導航，全面擁抱世界模型（World Models）。

自動駕駛的世界模型將「預測」與「生成」合而為一。這不再只是導航軟體，而是具備直覺與反應能力的數位大腦。

Waymo World Model：在虛擬中預演一萬種意外

作為自動駕駛行業的領頭羊，來自美國的自駕車界的開山鼻祖 Waymo 在 2026 年正式發布了 Waymo World Model。這套系統並非憑空而來，而是基於 DeepMind 的底層架構進行了深度定製。其核心價值在於對「長尾場景（Long-tail Scenarios）」的極限壓力測試。

長尾場景 source

所謂長尾場景，是指現實中極其罕見、危險且難以預測的突發狀況——例如一個小孩突然從兩輛並排停放的車縫中衝出，或是前方貨車掉落奇形怪狀的雜物。Waymo 的世界模型能夠生成無數種這類罕見的意外模擬，讓 AI 在數位孿生世界中「先死一萬次」。透過在模擬器中反覆發生的碰撞與失敗，AI 能在毫秒間學會如何在現實世界中精準避險，將風險降至趨近於零。

Wayve GAIA-1：預知未來的生成式大腦

與此同時，來自英國的自動駕駛新星 Wayve 則透過 GAIA (Generative AI for Autonomy) 展示了另一種可能性。GAIA的突破在於它賦予了 AI 強大的「預測性視覺」。

不同於以往僅是辨識當下物體，GAIA 是一個具備生成能力的基礎模型：

動作路徑預演： 當車輛決定左轉或緊急煞車時，模型能同步生成該動作下「未來的視覺場景」。
物理常識理解： 它能理解不同天氣、光影與路面摩擦力對駕駛行為的連鎖反應，並將其轉化為駕駛決策的參考。

這意味著 Wayve 的車輛不再只是根據感測器訊號進行被動反應，而是像經驗豐富的賽車手一樣，在腦中不斷預演接下來幾秒鐘內可能發生的空間變化。

source

GAIA-3 是 Wayve 開發的第三代「生成式世界模型」，旨在為無人駕駛系統提供超擬真的物理環境模擬。不同於傳統模擬器，GAIA-3 具備高度的具身智能，能根據駕駛動作預測未來的視覺變化與物理後果，實現「動作條件化」的預測。

其核心優勢與Waymo World Model相近，也能生成極具挑戰性的「長尾場景」（如罕見車禍或極端氣候），讓 AI 在安全的虛擬空間中預演數百萬次，大幅提升現實世界的安全性。GAIA-3 標誌著自動駕駛從單純的影像識別，進化到具備空間理解與因果推論的全新階段。

4. 效法自然的智慧：Verses.ai 與 AXIOM 的主動推論革命

在矽谷與倫敦之外，一場關於 AI 底層邏輯的革命正悄然發生。Verses.ai 走了一條與主流大語言模型完全不同的道路，他們不追求堆疊海量數據的「暴力美學」，而是試圖模仿生物大腦的運作機制。這家公司的靈魂人物是頂尖神經科學大師 Karl Friston，他將享譽科學界的「自由能原理（Free Energy Principle）」轉化為 AI 的演算法骨幹，並在 2025 至 2026 年間正式部署了 AXIOM 系統。

AXIOM 與 Yann LeCun 所倡導的「世界模型（World Models）」在願景上不謀而合，但其實踐路徑更偏向於第一性原理的神經科學模擬。

從「被動訓練」到「主動推論」

現今大多數 AI，包括強大的 OpenAI 模型，本質上都是基於「強化學習（Reinforcement Learning）」，透過海量的試錯與獎勵來習得技能。然而，AXIOM 系統的核心則是「主動推論（Active Inference）」。

主動推論的邏輯在於，生物大腦並非被動地接收刺激，而是一個不斷運作的「預測機器」。AXIOM 系統模仿這種生物天性，將行為目標設定為「最小化預測誤差」。這意味著 AI 代理人不僅僅是為了達成任務而行動，它在行動的過程中，會不斷比對真實環境與內心模型的差異，並主動修正其對世界的認知。

「好奇心」：減少不確定性的原動力

AXIOM 最迷人的特點在於它賦予了 AI 一種類似生物的「好奇心」。在傳統 AI 框架下，若沒有明確指令，代理人通常會停滯不前；但 AXIOM 驅動的代理人會表現出探索行為，這並非為了隨機好玩，而是為了「減少對環境的不確定性」。

自主探索： 當 AXIOM 進入一個未知工廠或數位環境時，它會主動去觀察那些「它還不理解」的角落，藉此完善自己的世界模型。
高效學習： 由於它具備物理常識與因果推論，AXIOM 不需要像傳統 AI 那樣死記硬背數萬次模擬，它能像孩子一樣，透過幾次觀察就理解物體間的關聯。

結語

綜觀 DeepMind 的動作邏輯、World Labs 的空間幾何、自動駕駛領域的預測想像，以及 Verses.ai 的主動推論，這些技術路徑雖然各異，卻共同指向同一個終點：AI 必須走出伺服器，獲得真正的理解與生存能力。

這場競賽證明了具身智慧並非單一機構的獨領風騷，而是技術演進的必然規律。DeepMind 將 AI 推向了操作紀元，李飛飛為其安裝了看透現實的「眼睛」，Waymo 與 Wayve 則賦予了車輛預判未來的「想像力」。

最終，如 Verses.ai 所展現的願景，我們將迎來一個 AI 不再僅僅依賴暴力計算與機率預測，而是具備生物般「直覺」的時代。這不再只是程式碼的運算，而是智慧在物理維度上的覺醒。當 AI 擁有了身體與空間常識，我們與機器的關係，將從單向的資訊檢索，正式轉變為共存於物理現實的協作夥伴。

About
Latest Posts

owenou

歐敏銓（Owen）曾投身IT、電子科技媒體報導十多年，因認同Maker運動的創新實作精神，創立MakerPRO社群媒體平台，致力結合媒體、產業與PRO Maker、開發者的社群力量，共同推展科技創造力。