聚焦自動駕駛車輛、自主機器人等所謂「實體AI」(Physical AI)系統的發展,NVIDIA在CES 2025宣布推出NVIDIA Cosmos平台;該平台包含生成式AI世界基礎模型(world foundation models,WFM)、先進標記器(tokenizer)、防護機制(guardrails)、加速視訊處理的流水線(pipeline)。同時該公司也宣布將在允許商業用途的寬容式開放模型授權下,讓研究與開發人員自由使用Cosmos WFM。
NVIDIA指出,實體AI模型開發成本高昂,需要大量的真實世界資料和測試。Cosmos WFM讓開發人員能夠方便產生大量逼真又符合物理原則的合成資料,以訓練和評估其現有模型。開發人員也可以微調 Cosmos WFM 來自訂模型。開發人員可以在 NVIDIA API 目錄上預覽第一批模型,或是從NVIDIA NGC目錄、Hugging Face下載模型系列和微調框架。建立AI代理(AI Agent)的企業也可以使用NVIDIA發表的全新開放式NVIDIA Llama Nemotron和Cosmos Nemotron模型。
NVIDIA Cosmos的開放模型套件代表開發人員可以視自己目標應用的需求,使用資料集自訂WFM,例如自駕車的行車錄影畫面或是機器人穿梭在倉庫裡;這種開放性排除了實體AI開發人員所面臨的障礙,讓各種規模的企業都能更快速地將其應用推向市場。開發人員可以直接使用Cosmos模型來產生物理的合成資料,也可利用NVIDIA NeMo架構,針對特定的AI設定,使用自己的影片來微調模型。
目前機器人公司1X、Agility Robotics與小鵬汽車,及自動駕駛車開發商Uber及Waabi等AI領導廠商,都已使用Cosmos加速及加強模型開發作業。
實體 AI 的世界基礎模型
Cosmos WFM是一套開放式擴散和自我回歸transformer模型,用於產生物理感知影片內容。使用2,000萬個小時現實世界人類互動、環境、工業、機器人和駕駛資料的9,000兆個詞元來訓練這些模型。
此模型有三個類別:Nano適用於針對即時、低延遲推論與邊緣部署進行最佳化的模型;Super適用於高效能基準模型;Ultra適用於最高品質與真實度,最適合用於提取客製化模型。
搭配NVIDIA Omniverse 3D輸出內容使用時,擴散模型會產生可控制的高品質合成影片資料,以開始訓練機器人與自動駕駛車感知模型。自我回歸模型會根據輸入畫面和文字預測影片畫面序列中的下一個畫面。就能即時預測下一個詞元,讓AI模型能預測下一個最佳動作。
開發人員可以使用Cosmos的開放模型來產生文字到世界和影片到世界的內容。擴散模型與自我回歸模型的版本各擁有40億到140億個參數,現在於 NGC目錄與Hugging Face開放使用。
還有120億個參數的上採樣模型,用於細化文字提示;70億個參數的影片解碼器,針對擴增實境進行最佳化;以及護欄以確保安全、負責任的使用AI。
NVIDIA也推出針對垂直應用的微調模型樣本,例如為自動駕駛車生成多感測器視角,以展示客製化的機會。
推動機器人及自動駕駛車技術的應用
Cosmos世界基礎模型能夠產生合成資料以增強訓練資料集、先行模擬以在真實世界部署前對實體AI模型進行測試與除錯,以及在虛擬環境中進行強化學習以加速AI代理學習。
開發人員可以使用NVIDIA Omniverse的3D合成場景來訓練Cosmos,產生大量可控制、基於物理的合成資料。從自駕車開始為實體世界開創生成式AI的Waabi,正在評估使用Cosmos搜尋和整理影片資料,用於開發和模擬自動駕駛車軟體。這將進一步加速公司以業界領先的方式推動安全性的發展;該公司利用Waabi World這個生成式AI模擬器創建任何車輛可能遇到的情境,並以與真實世界相同的真實感呈現。
開發機器人的WFM可以產生合成的虛擬環境或世界,為機器人學習提供成本更低、更有效率且可控制的空間。體現AI (embodied AI)新創公司Hillbot使用Cosmos來產生TB等級、真實感十足的3D環境,以增強其資料管道。這些由AI產生的資料將有助於該公司完善其機器人訓練與操作,讓機器人更快、更有效率地學習各項技能,以及提高執行工業與家庭任務的表現。
這兩個產業的開發人員都可使用NVIDIA Omniverse與Cosmos做為多重宇宙模擬引擎,讓實體AI策略模型模擬未來執行特定任務時可能採取的每個路徑,這反過來又能幫助模型從這些路徑中選擇最佳路徑。
Cosmos模型整理資料和訓練必須依賴NVIDIA DGX Cloud平台上的數千個 NVIDIA GPU,而NVIDIA DGX Cloud是一個高效能、完全託管的AI平台,可在各大雲端環境提供加速運算叢集。
採用Cosmos的開發人員可以使用DGX Cloud輕鬆部署Cosmos模型,並且透過NVIDIA AI Enterprise軟體平台提供更多支援。
使用 NVIDIA Cosmos 進行客製化與部署
除了基礎模型之外,Cosmos平台還有由NVIDIA NeMo Curator支援的資料處理與整理管道,並且針對NVIDIA資料中心GPU進行最佳化。機器人與自動駕車開發人員收集數百萬或數十億小時的真實世界影片畫面,產生出PB等級的大量資料。Cosmos讓使用NVIDIA Hopper GPU的開發人員,只要40天就能處理完2,000萬個小時的資料,而使用NVIDIA Blackwell GPU的話更只要14天。如果使用在CPU系統上執行的未最佳化管道作業,且功耗相當,則處理相同數量的資料則要三年以上的時間。
此平台還擁有一套功能強大的影片和圖片標記器,可以用不同的影片壓縮比將影片轉換為標記,用於訓練各種transformer模型。Cosmos標記器的總壓縮率比最先進的方法高出8倍,處理速度高出12倍,在訓練和推論方面都能提供優異品質與降低運算成本。開發人員可以在Hugging Face及GitHub取得這些以NVIDIA開放模型授權提供的標記器。
使用Cosmos的開發人員也能利用NeMo框架提供的模型訓練與微調功能,NeMo框架是一個GPU加速框架,能夠以高處理量的方式來訓練AI。
開發安全、負責任的 AI 模型
Cosmos現已根據NVIDIA開放模型授權協議提供給開發人員使用。在開發的過程中遵照NVIDIA值得信賴的AI原則,包括公平性、隱私性、安全、保障與公開透明度。
Cosmos 平台包含一套專用的Cosmos Guardrails模型,除了其他功能,還能在預先處理過程中減緩有害的文字與圖片輸入,並且在後製處理過程中篩選所產生的影片內容以確保安全性。還可針對自訂應用進一步強化這些防護措施。NVIDIA API 目錄上的 Cosmos 模型另有內建浮水印系統,能夠發現 AI 產生的連續畫面。
NVIDIA Cosmos 由 NVIDIA Research 開發,想了解更多關於模型開發與基準測試的詳細資訊,可參考研究論文《Cosmos World Foundation Model Platform for Physical AI》;在 Hugging Face 也提供其他資訊的模型卡。
- 加速實體AI開發 NVIDIA推出Cosmos世界基礎模型並開放使用 - 2025/01/09
- 聚焦AI創新 高通於CES 2025展示跨領域技術成果 - 2025/01/08
- 英特爾於CES 2025展現AI PC和邊緣運算的領先地位 - 2025/01/07