承上文《為人形機器人設計的開放式基礎模型: GR00T N1》,NVIDIA針對人形機器人的開發提出了許多配套的技術,以下來介紹幾個關鍵技術。
VLM模型 – Eagle-2 #
NVIDIA 的 Eagle-2 是一系列開源的視覺-語言模型(Vision-Language Models, VLMs),旨在透過透明且結構化的資料策略,提升多模態人工智慧的性能和可重現性。 它強調從零開始建立資料策略,詳細闡述資料收集、過濾、增強和選擇的過程,為開源社群提供可參考的開發指南(Github)。
目前Eagle-2 系列包含不同參數規模的模型,如 Eagle2-1B、Eagle2-2B 和 Eagle2-9B,滿足從輕量級應用到高性能需求的各種場景,其中Eagle2-9B 模型在多個多模態基準測試中表現優異。
自動化資料生成系統 – DexMimicGen #
這是 NVIDIA 研究團隊開發的自動化資料生成系統,旨在透過模仿學習(Imitation Learning)為雙手靈巧操作的機器人產生大量訓練資料。 它能夠從少量的人類示範(例如 60 次)自動生成超過 21,000 條機器人操作的演示數據,涵蓋九種不同的任務,並支援多種雙手協作的操作任務,包括但不限於分類罐頭、倒咖啡、托盤搬運和組裝零件等。
DexMimicGen 採用從真實世界到模擬再回到真實世界的訓練流程(Real2Sim2Real),確保在模擬環境中訓練的策略能有效應用於實際機器人操作。透過行為克隆(Behavioral Cloning),DexMimicGen 生成的數據可用於訓練機器人策略,在多項任務中達到高成功率。例如,在分類罐頭任務中,成功率達到 97.3%。
DexMimicGen 大幅降低了為雙手靈巧機器人生成訓練數據的成本和時間,推動了機器人模仿學習和操作技能的發展。相關的模擬環境和代碼已在 GitHub 上開源,方便研究人員和開發者使用和貢獻。
人型機器人運算平台 – Jetson Thor #
NVIDIA 的 Jetson Thor 是專為人形機器人設計的高性能計算平台,具備以下技術架構特點:
- Blackwell 架構 GPU:Jetson Thor 採用了 NVIDIA 最新的 Blackwell 架構 GPU,提供高達 800 TFLOPS 的 8 位元浮點運算能力,能高效執行多模態 AI 模型,處理圖像識別、語音處理等複雜任務。
- ARM Neoverse V3AE CPU:配備 14 核心的 ARM Neoverse V3AE 處理器,專為汽車應用和機器學習工作負載設計,提供卓越的計算性能。
- 高頻寬記憶體:支援 128 GB 的 LPDDR5X 記憶體,具備 256 位元匯流排寬度和 273 GB/s 的頻寬,確保資料處理的高效率。
- 模組化架構:Jetson Thor 的設計注重性能、能耗和尺寸的最佳化,適用於多元化的應用場景,如工業自動化、倉儲管理和家庭服務等。
- 高效能網路連接:整合了 100 GB 的乙太網路接口,滿足高速資料傳輸需求,支持機器人與其他設備的即時通訊。