邁向通用：ACT如何讓機器人「預見未來」動作？

Posted By MakerPro on 12 月 16, 2025 in AI Robot, AI關鍵技術, Physical AI, Transformer, 技術導讀 | 0 comments

想像一下，你正在教一個孩子如何做一個複雜的任務，比如烤蛋糕。如果這個孩子只能聽懂「現在把麵粉倒進去」這樣單一的指令，他很容易在下一個步驟「攪拌」時忘記或弄錯力度。

傳統的機器人學習就像這個「一步一腳印」的孩子，它們只看得到當下，做一步猜一步，很容易在長長的任務序列中犯錯。

而 ACT (Action Chunking with Transformers)，正是那個能讓機器人擁有「預見能力」和「全局視野」，從而順利完成複雜任務的「秘密武器」。它不僅是技術上的突破，更是引領人形機器人走出實驗室、走進我們生活的最關鍵一步。

為什麼傳統機器人「短視」又「笨拙」？

在深入 ACT 的魔法之前，我們先來看看人形機器人面臨的兩大困境：

1. 高難度連環任務的挑戰

人形機器人有數十個關節要控制。讓它「泡一杯咖啡」這個看似簡單的動作，其實是成百上千個連續且精確的小動作組成的長鏈條：走向檯面–>拿起杯子 $\to$ 裝咖啡粉 $\to$ 按下開關…

傳統的模仿學習（Behavioral Cloning, BC），就像看食譜一樣，每一次只學會一個動作，問題是：

問題一：短視症 (Myopia)。 機器人只關心當下，缺乏對「為什麼做這個動作」的長遠意圖。
問題二：蝴蝶效應 (Error Accumulation)。 如果機器人第一次拿起杯子時稍微偏了一點（微小誤差），這個錯誤狀態就會像雪球一樣越滾越大，導致後面所有的動作都偏離軌道，最終可能把咖啡灑得一團糟。

2. 數據太「碎片化」

教導機器人是極度耗時耗力的。我們需要一種方法，讓機器人能夠高效地從人類的示範數據中學習。如果每次訓練都要幾個月，通用機器人的夢想將遙遙無期。

ACT 的目標：既要學得快，又要行動穩，還得有遠見！

ACT 的核心魔法：Transformer 與「預知行動包」

ACT (Action Chunking with Transformers) 的名字聽起來很學術，但它的核心理念卻非常直觀且強大。它採用了兩大核心技術：

ACT技術原理示意圖（source）

1. 動作分塊：讓機器人看見未來多步後的動作（Action Chunking）

ACT 不再只預測單一的下一步動作，它一次會打包預測一整串未來多個動作的序列，我們稱之為一個「預知行動包」，好處是：

全局視野： 當機器人執行當前動作時，它腦中已經有了未來多步的「劇本」。這讓它的動作不再是隨機的點擊，而是有目的、有連貫性的流程。
絲滑流暢： 預測一個序列，就像給機器人規劃了一條短程的「微型路線圖」，動作之間的銜接自然平滑，告別了過去那種僵硬、一頓一卡的老式機器人風格。
容錯能力： 由於它預測的是一個行動包，即使機器人在某一步稍微偏離了一點點，模型也能根據整個行動包的整體目標，在下一步或下兩步時快速將其拉回正軌。

2. Transformer：賦予機器人序列理解力

要預測一個連貫且複雜的行動包，需要一個極其聰明的大腦。ACT 借用了在 ChatGPT 等大型語言模型中取得巨大成功的架構——Transformer。

source

Transformer 最厲害的就是它的「自注意力機制」：

理解上下文： 就像人類閱讀句子一樣，Transformer 能讓模型在生成動作序列時，理解每一個動作與整個當前狀態以及序列中所有先前動作的關係。
處理高維感官： 機器人從攝影機和感測器中獲得的數據是龐大且雜亂的（例如，畫面裡有桌子、杯子、手）。Transformer 能像一個聰明的篩選器，只提取出與「拿起杯子」這個任務相關的關鍵資訊。

此外，ACT 還使用了一個巧妙的設計——CVAE（條件變分自編碼器）來處理多樣性。如果一個狀態下，「開門」既可以推也可以拉，ACT 允許模型在執行時隨機選擇一種合理的模式，讓機器人的行為更像真人、更有彈性。

3. 不斷修正的「預測者」

ACT 採用的執行模式叫做「再規劃 (Receding-Horizon Re-Planning)」。這就像一個超級嚴格的司機：

預測： 司機（模型）預測未來 10 秒（n步）的路線。
執行： 司機只執行預測中的第一個動作。
修正： 執行完第一個動作後，司機立刻重新看路（感知新狀態），並重新預測未來 10 秒的路線。

這種不斷修正、不斷更新預測的機制，讓機器人始終能夠根據環境的最新變化來調整動作，極大地提高了在真實世界中的穩健性（Robustness）。

劃時代意義：邁向通用機器人

ACT 不僅是讓機器人動作更漂亮，它正在改變整個機器人學習的範式：

1. 通用智慧的基石

ACT 的架構是「任務無關」的。想像一下，我們將數百萬個不同任務的數據（從切菜到開門）輸入給一個大型 ACT 模型訓練。這個模型將學會一個通用的、跨任務的技能集。

技能遷移： 機器人學會「開冰箱」的抓取技巧，就能輕鬆應用到「拿起桌上鉛筆」上。這大大減少了針對單一任務的繁瑣編程和訓練。

走向家庭的機器人助手（source）

2. 人類教師的時代來臨

過去，教機器人需要寫複雜的數學方程式和控制代碼。現在，有了 ACT 這樣高效的模仿學習框架，機器人可以直接從人類操作的錄影或示範數據中學習高階技能。

這意味著，任何人都可以成為機器人的「教師」，大幅降低了機器人技術的門檻，讓知識累積的速度呈指數級增長。

ACT 與 LeRobot 的強強聯手

一個再好的演算法，如果鎖在實驗室裡，也無法改變世界。ACT 之所以能迅速普及，得益於它與開源專案 LeRobot 的緊密合作，強強聯手的優勢如下：

1. LeRobot：具身 AI 界的「GitHub + Model Hub」

LeRobot 是由 Hugging Face 發起的一個專案，目標是為機器人學習打造一個開放、共享的生態系統。就像軟體開發者共享程式碼，AI 研究員共享模型一樣，LeRobot 讓機器人研究員可以：

標準化數據： 確保不同實驗室收集的數據能夠互相理解和使用。
共享模型： 一鍵下載別人已經訓練好的、基於 ACT 的強大策略模型。

》延伸閱讀：為何Google、NVIDIA和Intel都支持LeRobot開源專案？

2. ACT：LeRobot 模型庫的「明星產品」

在 LeRobot 的生態中，ACT 及其衍生模型（如 Diffusion Policy）是最重要和最主流的架構之一。

普及加速器： LeRobot 提供了 ACT 的「傻瓜式」實作代碼。這意味著大學生、小型研究團隊或業餘愛好者，都可以輕鬆下載代碼、載入標準化數據集，在幾小時內啟動一個高性能的 ACT 模型訓練。
數據與模型的協同： LeRobot 確保了數據載入器 (DataLoader) 與 ACT 模型能夠無縫對接。它解決了過去機器人領域中「數據難以重用」和「程式碼難以復現」的兩大難題。

簡單來說，ACT 是讓機器人聰明的「大腦軟體」，而 LeRobot 則提供了快速、廉價、開放的「工廠」和「分發平臺」，讓這個大腦能夠被大規模製造和使用。

總結

ACT (Action Chunking with Transformers) 改變了機器人的決策方式。它讓機器人從一個只能看到當前的「短視者」，變成了能夠預見未來行動、動作連貫、且極具穩健性的「短程規劃大師」。

結合 LeRobot 帶來的開源力量，我們不再需要幾十年的時間去編程每一個動作。現在，透過 ACT，我們正在教導機器人如何學習，如何像人類一樣思考和行動，進而加速一個由通用、智能、且行動流暢的機器人所構成的未來。

（責任編輯：歐敏銓）

About
Latest Posts

MakerPro

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體，不論是趨勢分析與評論，或創新實作文章，在華文創新創業媒體領域都具有重要的影響力。