|

邁向具身智慧的下一站:群雄並起的「世界模型」競技場

   

當前人工智慧的發展正處於一個關鍵的轉捩點:文字與邏輯的堡壘已被攻克,下一步則是奪取「空間與動作」的高地。這是一場關於「物理定律與機率統計」的文明戰爭,各界菁英紛紛意識到,僅僅在螢幕後方吞噬數據是不夠的。

我們正進入一個「世界模型(World Models)」群雄並起的競技場,核心目標是賦予 AI 真正的「具身智慧(Embodied AI)」。AI 必須擁有一副能夠感知物理維度、預判因果律的「身體」,無論是穿梭於數位孿生的虛擬世界,還是行走在真實的物理街道,唯有當 AI 開始與現實互動,它才能從單純的語言處理器進化為能理解萬物運作規律的智慧主體。

目前在此領域有所建樣的技術領航者,除了本刊報導過的NVIDIA方案(Cosmos 世界模型平台及Project GR00T )及前文報導的AMI Labs外,還有哪些單位或廠商已有建樹?以下將介紹幾個值得關注的技術代表。

1. Google DeepMind 的 Genie 3 與 SIMA 2

在當前的 AI 競爭版圖中,Google DeepMind 依然穩坐「虛擬環境代理人」領域的第一把交椅。如果說語言模型賦予了AI思考的能力,那麼 DeepMind 則致力於為 AI 打造一副能與世界互動的「身體」與「常識」。DeepMind透過在 Genie 3 生成的世界中反覆磨練,讓AI代理人 – SIMA 習得如何精準地操控物體、應對複雜地形。

虛擬環境並非最終目的,而是機器人學習「動作常識」的實驗場。

Genie 3 的出現,徹底打破了傳統 3D 建模與遊戲引擎的繁瑣流程。它不再僅僅是生成一段不可更改的影片,而是一個能從單張圖片、草圖甚至一段簡單文字描述中,即時演算出「可互動 3D 空間」的神經網路模型。

與過去的版本相比,Genie 3 在物理真實度上取得了突破性的進展:

  • 動態流體力學: 當玩家在生成的環境中穿過水池,水面會產生精確的波紋與四濺的水花,甚至倒影也會隨之扭動。

  • 物理碰撞邏輯: 物體不再是虛擬的貼圖,而是具備質量的實體。當施加外力時,物體會遵循重力、摩擦力與碰撞反彈邏輯移動。

這種技術的核心價值在於,它為 AI 提供了一個無限且廉價的「數位沙盒」,讓機器人能在進入現實世界前,先在模擬環境中理解物理規律。

SIMA:賦予代理人「人類般的靈魂」

然而,有了精細的世界,還需要具備智慧的居民。這便是 SIMA(可擴展、多用途、通用代理人) 登場的時刻。不同於傳統遊戲中依賴預設腳本的 NPC,SIMA 是一個經過通用訓練的 AI 代理人。

》建伸閱讀:DeepMind Blog:SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds

在最近的測試中,SIMA 2 已展現出驚人的適應力。它可以直接理解自然語言指令(例如:「去那座山上找水源」或「幫我把箱子推到角落」),並像人類玩家一樣,透過視覺輸入與控制介面在多款不同的 3D 遊戲環境中自由穿梭。

2. 空間智慧的開拓者:World Labs 與李飛飛的視覺新局

如果說 DeepMind 的強項在於模擬動作邏輯,那麼由「AI 教母」李飛飛(Fei-Fei Li)於 2024 年底強勢創立的 World Labs,則代表了另一條至關重要的賽道:「空間智慧(Spatial Intelligence)」。李飛飛深信,若 AI 想要像人類一樣理解世界,就必須具備感知三維空間、理解幾何結構以及預測物理互動的能力。

空間智慧不僅是看見影像,而是理解「物體在空間中如何存在」。這種能力將使 AI 從虛擬的螢幕走入現實的立體世界。

Marble 架構:重建真實世界的幾何邏輯

World Labs 的核心技術在於其自主開發的 Marble 架構。這項技術的出現,標誌著視覺 AI 處理方式的根本轉變。傳統的生成式 AI 多半是基於 2D 圖像的機率堆疊,透過像素的預測來「拼湊」出外觀;然而 Marble 架構則是從底層邏輯出發,讓 AI 真正理解 3D 空間的幾何本質。

這意味著,當 Marble 觀察一個室內場景時,它看到的不是一張平面的照片,而是:

  • 深度的感知: 精確計算牆面、家具與觀測者之間的距離。

  • 物體的恆常性: 理解桌子後方被遮擋的空間依然存在,並能推論出其完整的物理體積。

  • 物理關聯性: 辨識出哪些物體是支撐面,哪些物體具有重心,從而理解環境的結構穩定性。

空間智能:自動駕駛與 AR 的終極大腦

在當前的技術版圖中,World Labs 的競爭點顯得極具策略性。相較於其他模型專注於「動作指令」的執行,World Labs 更專注於「視覺與空間的精確建模」。這種高精度的空間感知能力,正是解決許多現實挑戰的最後一塊拼圖。

對於自動駕駛而言,這意味著車輛不再僅僅依賴感測器數據的羅列,而是能像資深駕駛一樣,對複雜路口進行 3D 直覺判斷;對於擴增實境(AR)與混合實境(MR),World Labs 的技術能讓虛擬物件完美地「嵌入」現實物理結構中,消除漂移與穿模的違和感。

3. 行駛在模擬中的現實:Wayve 與 Waymo 的世界模型革命

自動駕駛領域或許是人類科技史上最嚴苛的試煉場,因為這裡不容許任何邏輯上的「幻覺」。在複雜多變的路況中,傳統基於規則(Rule-based)的寫死程式已捉襟見肘,這迫使自動駕駛企業集體轉向,放棄純粹的規律導航,全面擁抱世界模型(World Models)

自動駕駛的世界模型將「預測」與「生成」合而為一。這不再只是導航軟體,而是具備直覺與反應能力的數位大腦。

Waymo World Model:在虛擬中預演一萬種意外

作為自動駕駛行業的領頭羊,來自美國的自駕車界的開山鼻祖 Waymo 在 2026 年正式發布了 Waymo World Model。這套系統並非憑空而來,而是基於 DeepMind 的底層架構進行了深度定製。其核心價值在於對「長尾場景(Long-tail Scenarios)」的極限壓力測試。

長尾場景 source

所謂長尾場景,是指現實中極其罕見、危險且難以預測的突發狀況——例如一個小孩突然從兩輛並排停放的車縫中衝出,或是前方貨車掉落奇形怪狀的雜物。Waymo 的世界模型能夠生成無數種這類罕見的意外模擬,讓 AI 在數位孿生世界中「先死一萬次」。透過在模擬器中反覆發生的碰撞與失敗,AI 能在毫秒間學會如何在現實世界中精準避險,將風險降至趨近於零。

Wayve GAIA-1:預知未來的生成式大腦

與此同時,來自英國的自動駕駛新星 Wayve 則透過 GAIA (Generative AI for Autonomy) 展示了另一種可能性。GAIA的突破在於它賦予了 AI 強大的「預測性視覺」。

不同於以往僅是辨識當下物體,GAIA 是一個具備生成能力的基礎模型:

  • 動作路徑預演: 當車輛決定左轉或緊急煞車時,模型能同步生成該動作下「未來的視覺場景」。

  • 物理常識理解: 它能理解不同天氣、光影與路面摩擦力對駕駛行為的連鎖反應,並將其轉化為駕駛決策的參考。

這意味著 Wayve 的車輛不再只是根據感測器訊號進行被動反應,而是像經驗豐富的賽車手一樣,在腦中不斷預演接下來幾秒鐘內可能發生的空間變化。

GAIA-3 是 Wayve 開發的第三代「生成式世界模型」,旨在為無人駕駛系統提供超擬真的物理環境模擬。不同於傳統模擬器,GAIA-3 具備高度的具身智能,能根據駕駛動作預測未來的視覺變化與物理後果,實現「動作條件化」的預測。

其核心優勢與Waymo World Model相近,也能生成極具挑戰性的「長尾場景」(如罕見車禍或極端氣候),讓 AI 在安全的虛擬空間中預演數百萬次,大幅提升現實世界的安全性。GAIA-3 標誌著自動駕駛從單純的影像識別,進化到具備空間理解與因果推論的全新階段。

4. 效法自然的智慧:Verses.ai 與 AXIOM 的主動推論革命

在矽谷與倫敦之外,一場關於 AI 底層邏輯的革命正悄然發生。Verses.ai 走了一條與主流大語言模型完全不同的道路,他們不追求堆疊海量數據的「暴力美學」,而是試圖模仿生物大腦的運作機制。這家公司的靈魂人物是頂尖神經科學大師 Karl Friston,他將享譽科學界的「自由能原理(Free Energy Principle)」轉化為 AI 的演算法骨幹,並在 2025 至 2026 年間正式部署了 AXIOM 系統

AXIOM 與  Yann LeCun 所倡導的「世界模型(World Models)」在願景上不謀而合,但其實踐路徑更偏向於第一性原理的神經科學模擬。

從「被動訓練」到「主動推論」

現今大多數 AI,包括強大的 OpenAI 模型,本質上都是基於「強化學習(Reinforcement Learning)」,透過海量的試錯與獎勵來習得技能。然而,AXIOM 系統的核心則是「主動推論(Active Inference)」。

主動推論的邏輯在於,生物大腦並非被動地接收刺激,而是一個不斷運作的「預測機器」。AXIOM 系統模仿這種生物天性,將行為目標設定為「最小化預測誤差」。這意味著 AI 代理人不僅僅是為了達成任務而行動,它在行動的過程中,會不斷比對真實環境與內心模型的差異,並主動修正其對世界的認知。

「好奇心」:減少不確定性的原動力

AXIOM 最迷人的特點在於它賦予了 AI 一種類似生物的「好奇心」。在傳統 AI 框架下,若沒有明確指令,代理人通常會停滯不前;但 AXIOM 驅動的代理人會表現出探索行為,這並非為了隨機好玩,而是為了「減少對環境的不確定性」。

  • 自主探索: 當 AXIOM 進入一個未知工廠或數位環境時,它會主動去觀察那些「它還不理解」的角落,藉此完善自己的世界模型。

  • 高效學習: 由於它具備物理常識與因果推論,AXIOM 不需要像傳統 AI 那樣死記硬背數萬次模擬,它能像孩子一樣,透過幾次觀察就理解物體間的關聯。

結語

綜觀 DeepMind 的動作邏輯、World Labs 的空間幾何、自動駕駛領域的預測想像,以及 Verses.ai 的主動推論,這些技術路徑雖然各異,卻共同指向同一個終點:AI 必須走出伺服器,獲得真正的理解與生存能力。

這場競賽證明了具身智慧並非單一機構的獨領風騷,而是技術演進的必然規律。DeepMind 將 AI 推向了操作紀元,李飛飛為其安裝了看透現實的「眼睛」,Waymo 與 Wayve 則賦予了車輛預判未來的「想像力」。

最終,如 Verses.ai 所展現的願景,我們將迎來一個 AI 不再僅僅依賴暴力計算與機率預測,而是具備生物般「直覺」的時代。這不再只是程式碼的運算,而是智慧在物理維度上的覺醒。當 AI 擁有了身體與空間常識,我們與機器的關係,將從單向的資訊檢索,正式轉變為共存於物理現實的協作夥伴。

owenou

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: owenou

歐敏銓(Owen)曾投身IT、電子科技媒體報導十多年,因認同Maker運動的創新實作精神,創立MakerPRO社群媒體平台,致力結合媒體、產業與PRO Maker、開發者的社群力量,共同推展科技創造力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *