作者:Grace Hsieh
「人形機器人」,一直是機械與人工智慧領域中最具挑戰性與吸引力的課題。不僅要求機器具備高度複雜的結構設計與動態平衡能力,更希望讓機器能夠「理解人類世界」。而Figure AI正是沿著這條路徑前進的代表性公司之一。相較於多數機器人仍停留在展示動作或單一任務自動化,Figure AI 的目標非常明確:讓機器人不只是聽懂指令,還可以「主動學習」並「精準行動」。
打造「像人一樣學習與思考」的 AI 機器人
Figure AI自創立以來,旨在開發能夠自主學習和與人互動的 AI 驅動人形機器人。Figure 03是Figure AI的第三代人形機器人,可在家庭與商業環境中應用。不僅能端茶送水、整理房間、清洗餐具,還可與寵物互動;而在家庭之外,亦能勝任酒店前台、快遞配送、包裹分揀,甚至在宴會中擔任服務人員等商業應用。

(圖片來源)
而讓Figure 03能承擔如此多的任務,原因在於它能即時感知環境、理解人類指令,並將其轉化為具體行動,其關鍵便是結合Helix VLA(Vision-Language-Action)AI模型,透過視覺(Vision)系統,機器人可辨識物體與環境變化;語言(Language)理解則讓它準確掌握任務目標;動作(Action)模組則負責協調執行流程。正因其具備跨模態理解與即時應變能力,Figure 03才能在不同場景中完成各類任務。
Helix Model:為「行動而生」的多模態模型
Helix是一款 Vision-Language-Action(VLA)模型,旨在提供Figure AI 人形機器人的通用控制能力。與過去「語言理解 → 規則判斷 → 動作規劃」的串接式架構不同,Helix 採取的是更接近端到端(end-to-end)的策略,它將自然環境感知、語言理解與連續動作控制,整合至單一神經系統之中。
Helix特點如下:
- 完整上半身控制:
能以高頻率(200 Hz)連續控制人形機器人上半身的 35 個自由度,涵蓋手指、手腕、軀幹與頭部。這使機器人能完成協調動作,例如在調整軀幹姿勢以達到最佳伸展的同時,手部動作亦可被頭部追蹤,實現精準協同。
- 多機器人協作能力:
可同時操控兩台機器人的 VLA 模型,能協調長時間、多步驟的操作任務,甚至可應對從未見過的物體,大幅提升協作能力。
- 統一神經架構:
僅需一組神經網路權重,即可完成抓取、放置、拉抽屜等多種動作。
- 雙系統認知架構:
- 系統一(S1):具備 8,000 萬參數、基於 Transformer 的視覺動作策略模型,以 200 Hz 的高頻率執行即時、連續的動作控制。此分工使 Helix 能「深思熟慮地規劃,同時迅速行動」。
- 系統二(S2):具備 70 億參數的視覺語言模型,負責場景理解與自然語言解析,運行頻率為 7–9 Hz。

(圖片來源)
Helix 的訓練資料約 500 小時,主要來源於人類遠端操控示範,並結合自動標註的視覺語言模型(VLM)生成後見指令(hindsight instructions)。相比其他VLA訓練集,其所需數據量相對較少,但仍能精準控制人形,在實際家庭和商業場景中靈活運作。
結語
Figure AI與Helix Model標誌著通用人形機器人從「可展示動作」向「可部署智能」邁出了關鍵一步。隨著硬體與AI技術的不斷進化,Figure AI不僅為家庭與商業提供了實用的智能機器人解決方案,也為整個人形機器人領域開啟了全新的可能性——機器人成為真正能理解人類需求、並在日常生活中可靠運作的智能夥伴。
延伸閱讀
- Helix Model:Figure AI人形機器人邁向「可部署智能」的關鍵拼圖 - 2026/01/30
- 推動公民參與、在地落實的淨零科技創新 國科會秀階段成果 - 2026/01/28
- Tesla Optimus Gen 3:以自駕AI為引擎的通用人形機器人 - 2026/01/16
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!


