當我們習慣用語音助理開燈、讓掃地機器人自動清潔時,或許很少人想過另一個問題:如果未來有一台人形機器人,它能否像人一樣聽懂話語,並立即做出精確的身體動作?Figure 推出的 Helix 模型,正在試圖回答這個問題。這不僅是又一個 AI 模型的發布,而是對「視覺、語言與動作」如何真正結合的一次突破。
家庭,機器人的最終考場 #
機器人走進家庭,一直是科學家與產業界的夢想。與工廠不同,家是一個無比複雜的場域:桌上可能同時有玻璃杯、玩具、衣物,甚至形狀奇特的廚具。每一件物品都可能是新的挑戰。
過去,讓機器人學會一個新動作的成本極高。要嘛需要專家花上數小時編寫程式,要嘛必須進行數千次示範。這樣的方式顯然無法擴展到日常家庭應用。
AI 在其他領域已展示出「即時泛化」的威力。視覺語言模型(VLM)能理解抽象的語意,並生成相關的文字或圖像。如果這樣的語意理解能夠直接轉化為機器人動作,將意味著機器人不再需要逐步教學,而能像人類助手一樣,聽懂一句話便學會一項新技能。
Helix 正是為了打通這條「最後一哩」而誕生。

讓機器人學習新技能的三階段曲線:1.在傳統的啟發式操作中,技能隨著專家手動編寫script而慢慢成長;2. 上階段的機器人採取模仿學習,技能隨著收集的數據而擴展;3. 現階段使用 Helix模型,機器人的新技能可以透過語言即時學習 (source)
Helix 的突破:從語言到動作的無縫橋接 #
Helix 不是單純的升級版模型,而是一個全新的「視覺-語言-動作 (VLA)」架構。它的設計核心在於兩個互補的系統:
- 系統 2 (S2):一個機載的視覺語言模型,負責理解場景與語言,以每秒 7-9 次的頻率思考,進行抽象推理。
- 系統 1 (S1):一個高速反應的視覺運動策略,以每秒 200 次的速度運行,將語意表徵轉化為精確動作。

Helix 使用標準架構 – 用於系統 2 的開源、開放權重 VLM ,和用於 系統1 的簡單的基於變壓器的視覺運動策略(source)
這樣的雙系統設計,讓 Helix 同時具備「慢思考」與「快反應」的能力。S2 提供大方向,S1 負責即時調整。例如,當兩台機器人一起搬動雜貨時,S1 能立刻根據對方的動作進行協調,而不偏離 S2 所設定的任務目標。
換句話說,Helix 讓機器人第一次真正能夠像人類一樣——既能思考,又能行動。
首次實現的里程碑 #
Helix 的能力,已經在幾個標誌性場景中被展示:
- 整個上身的高速控制:不同於過去僅能控制簡單手爪,Helix 能同時控制人形機器人的手腕、手指、頭部與軀幹,完成連續而靈巧的動作。
- 零樣本多機器人協作:在測試中,兩台 Figure 機器人能憑藉相同的 Helix 權重,協作完成雜貨收納。他們能分工搬運從未見過的物品,僅透過一句語言提示,就能靈活配合。以下影片即示範了Helix 如何協調精確的多機器人操作(source):
- 「撿起任何東西」的能力:只需一句「撿起 X」,Helix 就能讓機器人成功抓取幾乎任何小型家居物品——從玻璃杯到玩具仙人掌。
此能力展現出 Helix 在語言理解與動作控制間的獨特優勢。在以下影片中(source),當指令是「撿起沙漠物品」時,Helix 會識別玩具仙人掌符合語意,並選擇最近的手完成安全抓取。這種「語言到動作」的推理,讓人形機器人第一次具備了接近人類助手的靈活性。
簡單卻強大的架構 #
令人驚訝的是,Helix 的訓練規模並不像人們想像的那麼龐大。它僅使用了大約 500 小時的高品質監督數據,比過去 VLA 系統所需的規模少了 95% 以上。
更重要的是,Helix 並沒有針對不同任務進行專門的微調,而是依靠一組統一的神經網路權重,就能應付多種操作:從開冰箱、抽屜,到進行多機器人交接。這不僅提高了泛化能力,也讓系統的維護與擴展更為簡潔。
對比傳統的設計,Helix 拒絕了複雜的「動作標記」系統,而是直接輸出高維度的連續控制信號。這讓它能自然地擴展到人形機器人的全身控制,而不被低維控制架構所限制。
商業就緒的未來 #
另一個令人振奮的突破是:Helix 已經能在嵌入式低功耗 GPU 上運行。這意味著它不僅是一個實驗室成果,而是距離商業部署只差一步的技術。
在未來的場景中,我們或許會看到 Helix 驅動的人形機器人走進家庭,幫助收拾碗盤、整理雜物,甚至與其他機器人協作完成任務。隨著模型進一步擴展,這些機器人將能以更低成本、更高效率,處理複雜而多變的家庭環境。
結語 #
Helix 的誕生,標誌著人形機器人真正邁向家庭應用的關鍵一步。它不僅能快速而精確地控制整個上半身,還能理解語言、泛化到從未見過的物品,甚至在多機器人場景中協作。這些突破,讓人形機器人從概念走向現實,從研究走向商業。
然而,Helix 帶來的可能性遠不止於此。若模型進一步擴展千倍,其所能展現的智慧與靈活性,將徹底重塑我們對機器人角色的想像。
或許在不久的將來,我們不再會驚訝於機器人能幫我們收拾房間,而會思考:它是否已經成為家庭的一份子?
》資料來源:Helix: A Vision-Language-Action Model for Generalist Humanoid Control