小模型革命：SmolVLA打開機器人普及新局

Posted By MakerPRO編輯部 on 6 月 19, 2025 in AI Robot, 技術導讀, 技術新訊 | 0 comments

SmolVLA的出現，讓我們看見機器人領域不一定需要燒錢堆資源才能創新。它用僅450M參數、不到三萬筆訓練資料與消費級硬體，證明了開源架構也能具備世界級表現。

當Transformer成為人工智慧的顯學，從語言模型至多模態理解不斷取得進展，無數研究者興奮地預言AGI（通用人工智慧）的黎明即將到來。然而，在與物理世界直接互動的機器人領域，進展卻相對緩慢，究意卡在哪裏呢？

語言模型可以寫詩、作畫，甚至分析法律文本；多模態模型能理解圖像與語句的關聯、為照片生成描述。但對一台機器人而言，真正的挑戰不只是「理解」，而是「行動」──當你說出「把藍色杯子放到桌上」，機器人要看懂場景、理解語意、規劃運動，並克服感測噪訊與物理不確定性。這不是模擬，而是現實世界。

然而現有的機器人系統往往缺乏一項關鍵能力：通用化（Generalization）。在變動的場景裡，要讓機器人能跨任務、跨環境甚至跨設備執行語言驅動的任務，目前依賴的還是高度客製化、硬體需求龐大的封閉系統。缺乏可獲取的高品質資料集與平價訓練環境，使得大多數研究者只能自求多福了。

VLA：統一感知、語言與行動的未來架構

為了突破瓶頸，研究社群近年轉向一種新型的整合架構：視覺-語言-動作（Vision-Language-Action，簡稱 VLA）模型。這類模型的設計靈感源自人類的認知模式：我們透過眼睛看、用語言理解，再作出身體動作。VLA 模型同樣將影像與文字作為輸入，輸出則是機器人該如何動作的預測結果。

這看似可行的結構卻面臨一個困境：資源門檻太高。最先進的 VLA 模型多半是由大型科技公司打造，依賴私有資料集與價值數十萬美元的訓練設備，即使它們成果卓著，但缺乏可複製性與開源精神，也讓更多中小型機器人實驗室、學校與開發者難以參與。

就在這樣的背景下，一個「小而美」的專案登場了，它的名字是──SmolVLA。

SmolVLA：給每個人都能上手的通用機器人模型

SmolVLA在各種任務中的比較。從左到右：(1) 非同步拾放立方體計數，(2) 同步拾放立方體計數，(3) 擾動下的拾放立方體計數，以及 (4) 使用現實世界 SO101 對樂高積木進行通用化拾放。(Source)

SmolVLA並非來自巨頭實驗室的百萬專案，而是一個開源、緊湊卻功能完整的 VLA 架構。它的核心理念很單純：讓語言與視覺驅動的機器人不再是只有科技大佬才能玩得起的技術。

SmolVLA-450M是目前的主力模型，它的參數規模遠低於動輒數十億的同類模型，其輕量化讓它能在消費級 GPU，甚至是高階 MacBook 上直接訓練和推理。對於教育工作者、小型研究團隊和創客社群而言，這無疑是一大福音。

SmolVLA將來自多個相機的 RGB 影像序列、機器人當前的感覺運動狀態以及自然語言指令作為輸入。 VLM將這些內容編碼為情境特徵，從而指導動作專家產生連續的動作序列。（Source）

此外，SmolVLA使用的訓練資料全部來自公共來源，並結合 LeRobot 開源社群所分享的真實世界機器人資料。這不僅大幅降低了資料取得門檻，也讓使用者可以貢獻自己的任務資料、參與模型優化，打造真正的協作式模型生態。

》延伸閱讀：平民化的AI機器人開源平台：LeRobot是什麼？

硬體方面，SmolVLA 支援如 SO-100、SO-101、LeKiwi 等平價平台。這些開源機器人平台往往僅需幾百美元即可取得，卻能搭配 SmolVLA 完成語言驅動的複雜操作任務：從分類物品到執行組裝任務，一應俱全。

》延伸閱讀：LeRobot模擬學習與硬體選購全攻略

模型創新：少資料、高效能的對比突破

傳統認為，通用模型需要海量數據支持，但 SmolVLA 打破了這個迷思。透過受到大型語言模型啟發的預訓練-微調流程，它先在通用操作資料（如各種開源模擬場景）上進行預訓練，再針對特定任務進行後訓練，雖然整體僅用不到 3 萬筆訓練資料，卻能在多個基準測試上擊敗規模更大、資料量更多的 VLA 對手。

尤其在 LIBERO 和 Meta-World 等模擬環境，SmolVLA-450M 展現出比肩甚至超越專有模型的性能。在真實環境下如 SO-100 平台，也可與 Meta 所開發的 ACT 等模型一較高下，證明其訓練方法與架構設計的有效性。

非同步推理堆疊：更快、更聰明的行動決策

傳統模型往往將感知、理解與動作串接為一體，導致整體反應速度受限於最慢環節。SmolVLA 則導入「非同步推理堆疊」架構，將感知與行動的邏輯流程拆解、並行處理。這讓機器人在執行動作的同時，可以繼續接收與處理來自環境的視覺資訊，實現即時調整與快速反應。根據開發者的實測，這種架構讓反應速度提升達 30%、任務處理吞吐量則幾乎翻倍。