作者:歐敏銓
為了讓大家繼續擁抱「高算力」,黃仁勳近年來扮演著擘畫科技前瞻願景的推手角色,而今年他的主題,很明顯是「人形機器人」(Humanoid Robotics),他指出AI的發展即將從感知AI(Perception AI)、生成式AI(Generative AI)、代理AI(Agentic AI),走入物理AI(Physical AI)的時代。
何謂Physical AI呢?它指的是具備物理實體、能與真實世界互動的人工智慧系統。不像傳統 AI 多集中於虛擬世界(如聊天機器人、推薦系統、圖像辨識等),Physical AI 強調的是 AI 與現實世界中的物理作用結合,具體來說就是讓AI 能控制有形的硬體設備,如下圖中的搬運機器人、手術機器人、工廠機器手臂、自駕車等。
這些都還是所謂專才型機器人(Specialist Robotics),能力及用途相當侷限,也不是很需要長的像個「人」。而黃仁勳口中的Physical AI時代,其實勾勒的是人型的通才型機器人(Generalist Robotics),也就是透過Physical AI讓機器人結合語言理解、視覺感知、策略推理和動作控制等多模態 AI 能力,最終能像「真人」自主且適性地執行多種任務。
當然,他不會是空口說白話,而是端出全套的解決方案,同時也做出一台很萌的小藍(Blue)與他在GTC同台,很具體的告訴大家:「時候到了!」
不過,目前要做到類人類的通才型機器人仍有不短的距離,眼前的目標是將專才型機器人提升到「專門化的通才機器人」(Specialized Generalist Robot),這是NVIDIA在推廣其機器人平台(如 Jetson 與 Isaac 模組)時提到的一種結合了「廣泛能力」與「專門技能」的機器人設計理念,目的打造出在 Physical AI 驅動下,能根據多樣化任務動態學習與適應的機器人,而且能高效率且可靠的完成任務,同時可透過模擬與真實世界訓練(如 Omniverse+Isaac Sim)持續提升。
這類機器人需要具備多功能的身體與智慧的大腦,要讓機器人能夠理解新情境、穩定應對現實世界中的多變性,並且能迅速學習新任務,就必須訓練一個建立在大量多樣化資料上的機器人基礎模型。
為此,NVIDIA提出了一個為人形機器人設計的開放式基礎模型: GR00T N1。GR00T N1 是一個結合視覺、語言與動作(VLA)的模型,採用受到人類認知處理啟發的雙系統架構:
• System 2:
System 2推理模組是一個預先訓練的視覺語言模型 (NVIDIA Eagle-2 VLM),在 NVIDIA L40 GPU 上以 10Hz 的頻率運作。它處理機器人的視覺感知和語言指令來解釋環境並理解任務目標。
• System 1:
理解任務目標後,經過動作流匹配訓練的擴散變換器作為系統 1 動作模組。它交叉關注 VLM 輸出令牌,並採用特定實施例的編碼器和解碼器來處理運動產生的可變狀態和動作維度。它以更高的頻率(120Hz)產生閉環馬達動作。
System 1 和System 2 模組均基於 Transformer 的神經網絡來實現,在訓練期間緊密耦合並聯合優化,以促進推理和驅動之間的協調,技術架構見下圖:
NVIDIA以異質性資料組合來訓練 GR00T N1,資料來源包含真實機器人操作軌跡、人類影片,以及合成資料集,這些訓練語料庫建構成資料金字塔:大量的網路資料和真人影片構成了金字塔的基礎;透過物理模擬產生和/或透過現成的神經模型增強的合成資料構成中間層,而在物理機器人硬體上收集的真實世界資料構成頂層。金字塔的下層提供廣泛的視覺和行為先驗,而上層確保具體化、真實機器人執行的基礎,如下圖所示:
事實上,NVIDIA針對通才型機器人提出了許多配套的技術,以下來介紹幾個關鍵技術。
VLM模型 – Eagle-2
NVIDIA 的 Eagle-2 是一系列開源的視覺-語言模型(Vision-Language Models, VLMs),旨在透過透明且結構化的資料策略,提升多模態人工智慧的性能和可重現性。 它強調從零開始建立資料策略,詳細闡述資料收集、過濾、增強和選擇的過程,為開源社群提供可參考的開發指南(Github)。
目前Eagle-2 系列包含不同參數規模的模型,如 Eagle2-1B、Eagle2-2B 和 Eagle2-9B,滿足從輕量級應用到高性能需求的各種場景,其中Eagle2-9B 模型在多個多模態基準測試中表現優異。
自動化資料生成系統 – DexMimicGen
這是 NVIDIA 研究團隊開發的自動化資料生成系統,旨在透過模仿學習(Imitation Learning)為雙手靈巧操作的機器人產生大量訓練資料。 它能夠從少量的人類示範(例如 60 次)自動生成超過 21,000 條機器人操作的演示數據,涵蓋九種不同的任務,並支援多種雙手協作的操作任務,包括但不限於分類罐頭、倒咖啡、托盤搬運和組裝零件等。
DexMimicGen 採用從真實世界到模擬再回到真實世界的訓練流程(Real2Sim2Real),確保在模擬環境中訓練的策略能有效應用於實際機器人操作。透過行為克隆(Behavioral Cloning),DexMimicGen 生成的數據可用於訓練機器人策略,在多項任務中達到高成功率。例如,在分類罐頭任務中,成功率達到 97.3%。
DexMimicGen 大幅降低了為雙手靈巧機器人生成訓練數據的成本和時間,推動了機器人模仿學習和操作技能的發展。相關的模擬環境和代碼已在 GitHub 上開源,方便研究人員和開發者使用和貢獻。
人型機器人運算平台 – Jetson Thor
NVIDIA 的 Jetson Thor 是專為人形機器人設計的高性能計算平台,具備以下技術架構特點:
- Blackwell 架構 GPU:Jetson Thor 採用了 NVIDIA 最新的 Blackwell 架構 GPU,提供高達 800 TFLOPS 的 8 位元浮點運算能力,能高效執行多模態 AI 模型,處理圖像識別、語音處理等複雜任務。
- ARM Neoverse V3AE CPU:配備 14 核心的 ARM Neoverse V3AE 處理器,專為汽車應用和機器學習工作負載設計,提供卓越的計算性能。
- 高頻寬記憶體:支援 128 GB 的 LPDDR5X 記憶體,具備 256 位元匯流排寬度和 273 GB/s 的頻寬,確保資料處理的高效率。
- 模組化架構:Jetson Thor 的設計注重性能、能耗和尺寸的最佳化,適用於多元化的應用場景,如工業自動化、倉儲管理和家庭服務等。
- 高效能網路連接:整合了 100 GB 的乙太網路接口,滿足高速資料傳輸需求,支持機器人與其他設備的即時通訊。
小結
從掃地機器人、產線機器手臂、無人搬運車到送餐機器人,專才型機器人已發揮了節省人力的很大幫助,而兼具「專才」和「通才」的機器人,顯然將可發揮更廣泛的助益。雖然說結合週邊感知、整電控制與資訊系統於一身的人型機器人,其設計的複雜度並不小於一台自駕車,但在開源技術與社群的群策群力下,可能如同AI的發展一樣,一旦跨越了「某個」門檻,就會產生一次大躍進,快速地走進你我的生活中。
》延伸閱讀:
- NVIDIA白皮書:GR00T N1: An Open Foundation Model for Generalist
Humanoid Robots - Accelerate Generalist Humanoid Robot Development with NVIDIA Isaac GR00T N1
- Exploring NVIDIA Isaac GR00T
- NVIDIA AI 發布 Eagle2 系列視覺語言模型:在各種多模態基準測試中實現 SOTA 成果
- Physical AI近了!如何打造「通用又專才」的機器人? - 2025/04/13
- 當Node-RED遇上AI、RAG:IOT工作流程變聰明了! - 2025/04/08
- 為何Fair Code授權訴求廣受開源公司重視? - 2025/04/01
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!