OpenVINO工具套件AI程式講座
|
View Categories

訓練機器人互相學習:DeepMind 的 RT-X基礎模型

閱讀時間: 2 min read

作者:歐敏銓

近年來,機器人技術取得了巨大進步。然而,當今大多數機器人仍然是專門的工具,專注於結構化環境中的單一任務。這使得他們變得不靈活——無法適應新情況或將他們的技能推廣到不同的環境。為了實現更像人類的智能,機器人需要成為更好的學習者。正如人們可以透過觀察他人來獲得新技能一樣,機器人也可以從跨平台匯集知識中受益。

本文介紹一下Robotic Transformer(簡稱 RT)的先進機器人基礎模型 – RT-X。

不同於傳統以單一感知(視覺或觸覺)驅動簡單動作的機器人系統,RT模型的目標是讓機器人以類似人類思考的方式來自主推理並執行複雜任務。RT將大型Transformer架構應用於機器人的感知、理解與控制。這一領域由Google DeepMind率先推動,目標是讓機器人能像語言模型(如GPT系列)那樣,透過「多模態輸入」理解指令並自動產生行動策略。簡單地說,它可以控制機械手臂根據「將魔術方塊放在剪刀旁邊」等自然語言命令執行任務。

技術發展進程 #

從歷史上看機器人程式設計是一項耗時且專業的任務,其中更改單個變數通常需要從頭開始,從而大大增加開發時間。然後研究人員開始用電腦視覺訓練機器人。這又引出了另一個問題,雖然電腦視覺和 NLP 可以利用來自網路的大型資料集,但用於機器人互動的同等大而廣泛的資料集卻很難獲得。

2022年,Google Robotics推出RT-1,首次將Transformer用於將攝影機畫面和文字指令直接映射成手臂動作指令。RT-1使用了大量人類操作示範資料,在真實世界中訓練,有效解決了傳統規則式控制在多變環境中的侷限。2023年,DeepMind發表了RT-2(Robotic Transformer 2),將RT概念大幅升級:
RT-2首次引入了大規模視覺-語言-動作(Vision-Language-Action, VLA)三合一訓練,結合了網路上大量視覺語義資料,讓機器人能以「零樣本」(zero-shot)的方式理解從未見過的指令,展現了接近人類推理的能力。

在2023年底,Google DeepMind、加州大學柏克萊分校、史丹佛大學和其他機構的研究人員共同發表了RT-X計畫:一個多機器人學習如何實現更強大、更通用的機器人系統。這是一個大型通用型機器人基礎模型計畫,標誌著 Robotic Transformer 技術進入「跨機器人、跨任務」的新階段。此外,社群版的OpenX-Embodied專案也在2024年開啟,標誌著RT技術從專有走向開源,促進更多研究與應用創新。

RT-X 技術特色 #

RT-X 主要技術特色可以歸納為以下幾個重點:

1.跨機型訓練(Cross-Embodiment Training) #

RT-X 不只針對單一機械臂或機器人設計,而是使用了超過20種不同形態的機器人(如不同手臂長度、夾爪樣式、底座設計)進行聯合訓練。這讓RT-X具備跨硬體適應性,只需微調即可遷移到新機器人上,極大地提升了泛化能力。

2.大型資料集與多模態學習(Massive Multi-modal Dataset) #

RT-X建立在超過10萬小時的真實世界與模擬操作示範資料上,並結合了視覺(影像)+語言(文字指令)+動作(control actions)的多模態輸入。這使RT-X可以從自然語言指令推理出對應的操作流程,即使面對從未見過的複雜任務,也能進行零樣本(zero-shot)泛化推理

3.通用動作語義建模(Generalizable Action Semantics) #

RT-X 不是單純地記憶特定任務步驟,而是學會了「行動背後的語義意圖」,例如「抓取」、「堆疊」、「搬運」這些高層次動作概念。這種語義建模讓它能靈活組合已學過的技能,應對新組合的任務要求。

4.模組化部署與開源推進(Open Collaboration) #

RT-X並非封閉系統,它鼓勵使用社群共同擴展資料集、模型權重與訓練流程,開啟了Open X-Embodiment 資料集計畫:一個大型資料集,包含 22 個不同機器人執行各種操作技能的 100 多萬個影片範例。這種開源思路大幅降低了開發者、研究者在不同機器人平台上應用RT-X的門檻,加速了通用機器人技術的普及。

RT-X技術架構 #

為了在他們的資料集上對多機器人學習進行基準測試,研究人員訓練了 RT-X – 基於 Transformer 的模型,該模型改編自先前的研究(RT-1 和 RT-2)。 RT-X 核心架構包括:

  • 電腦視覺主幹網(EfficientNet)用於處理輸入影像
  • 自然語言模組用於編碼文字指令
  • Transformer 層融合視覺與語言
  • 用於預測機器人動作的輸出頭

評估了兩種 RT-X 變體:

  • RT-1-X:基於RT-1架構的35M參數模型。
  • RT-2-X:基於 55B 參數 VLM 的模型,擴展了 RT-2。

這兩種模型都經過訓練,可以接收第三人稱攝影機影像和文字任務描述,並輸出控制機械手臂的動作。這充分利用了 Open X-Embodiment 資料的多模式特性。RT-X的機器人控制系統通常包含以下四大核心模組,形成一套完整的「從感知到行動」流程:

1. 感知編碼器(Vision-Language Encoder) #

感知編碼器負責接收外界資訊,包括攝影機影像(RGB、深度)與自然語言指令(如「抓起紅色杯子」)。這一模組將異質資料轉換為統一的高維語意向量,常使用強大的預訓練模型(如ViT、CLIP、PaLM-E)來提取視覺與語言的深層語義特徵。感知編碼器是整個系統的「眼睛與耳朵」。

2. 決策 Transformer(Policy Transformer) #

接著,經編碼的語意特徵會送入決策Transformer,這一層負責高階推理與策略規劃。它學習如何從感知語意推導出一連串符合任務目標的動作計畫。這部分可以理解為「大腦中的意圖規劃器」,建構從當前狀態到目標狀態的策略路徑。

3. 動作解碼器(Motion Decoder) #

動作解碼器將決策Transformer輸出的動作計畫,進一步細化成可以直接控制機械手臂或機器人硬體的低階命令(如關節角度、夾爪開合角度等)。這一層確保從抽象策略到物理動作的轉換順暢,對應機器人的「肌肉與神經」。

4. 回饋機制(即時修正計畫) #

RT技術架構內建回饋機制,能即時根據感測器回報(如視覺偏差、力覺異常)動態調整策略與行動。這使得機器人能在面對環境變化、感知誤差時進行局部修正,提高任務完成的穩健性與靈活性。

整個典型流程可以簡單描述為:感知語意推理(高層)策略生成(中層)運動控制(底層),並不斷進行回饋與優化,實現連續且智慧的機器人行動。這種架構的最大優勢是:高層語意推理能力 + 低層運動靈活性結合,讓機器人能以類似人類的方式理解目標並自適應執行,為未來的通用型智慧機器人奠定了堅實基礎。

小結 #

整體來看,Robotic Transformer的重要性在於:它把機器人從「單一任務執行器」推進到「通用智能體」,能夠透過語言理解與環境感知,自主決策並完成複雜任務,為未來家庭助理、工業自動化乃至探索機器人奠定了基礎。此外,RT能夠執行涉及以前從未見過的物體甚至動作的任務。該模型能夠產生機械人能夠理解和執行的一系列低階動作,將「Transformer 架構」應用到機器人感知、理解、規劃、控制領域的技術路線。

》延伸閱讀:

RT-2: New model translates vision and language into action

DeepMind’s X-Embodiment and RT-X: Training Robots to Learn from Each Other

Github: open_x_embodiment

Powered by BetterDocs

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *