SmolVLA 的出現,讓我們看見機器人領域不一定需要燒錢堆資源才能創新。它用僅 450M參數、不到三萬筆訓練資料與消費級硬體,證明了開源架構也能具備世界級表現。
當 Transformer 成為人工智慧的顯學,從語言模型至多模態理解不斷取得進展,無數研究者興奮地預言 AGI(通用人工智慧)的黎明即將到來。然而,在與物理世界直接互動的機器人領域,進展卻相對緩慢,究意卡在哪裏呢?
語言模型可以寫詩、作畫,甚至分析法律文本;多模態模型能理解圖像與語句的關聯、為照片生成描述。但對一台機器人而言,真正的挑戰不只是「理解」,而是「行動」──當你說出「把藍色杯子放到桌上」,機器人要看懂場景、理解語意、規劃運動,並克服感測噪訊與物理不確定性。這不是模擬,而是現實世界。
然而現有的機器人系統往往缺乏一項關鍵能力:通用化(Generalization)。在變動的場景裡,要讓機器人能跨任務、跨環境甚至跨設備執行語言驅動的任務,目前依賴的還是高度客製化、硬體需求龐大的封閉系統。缺乏可獲取的高品質資料集與平價訓練環境,使得大多數研究者只能自求多福了。
VLA:統一感知、語言與行動的未來架構
為了突破瓶頸,研究社群近年轉向一種新型的整合架構:視覺-語言-動作(Vision-Language-Action,簡稱 VLA)模型。這類模型的設計靈感源自人類的認知模式:我們透過眼睛看、用語言理解,再作出身體動作。VLA 模型同樣將影像與文字作為輸入,輸出則是機器人該如何動作的預測結果。
這看似可行的結構卻面臨一個困境:資源門檻太高。最先進的 VLA 模型多半是由大型科技公司打造,依賴私有資料集與價值數十萬美元的訓練設備,即使它們成果卓著,但缺乏可複製性與開源精神,也讓更多中小型機器人實驗室、學校與開發者難以參與。
就在這樣的背景下,一個「小而美」的專案登場了,它的名字是──SmolVLA。
SmolVLA:給每個人都能上手的通用機器人模型

SmolVLA 在各種任務中的比較。從左到右:(1) 非同步拾放立方體計數,(2) 同步拾放立方體計數,(3) 擾動下的拾放立方體計數,以及 (4) 使用現實世界 SO101 對樂高積木進行通用化拾放。(Source)
SmolVLA 並非來自巨頭實驗室的百萬專案,而是一個開源、緊湊卻功能完整的 VLA 架構。它的核心理念很單純:讓語言與視覺驅動的機器人不再是只有科技大佬才能玩得起的技術。
SmolVLA-450M 是目前的主力模型,它的參數規模遠低於動輒數十億的同類模型,其輕量化讓它能在消費級 GPU,甚至是高階 MacBook 上直接訓練和推理。對於教育工作者、小型研究團隊和創客社群而言,這無疑是一大福音。

SmolVLA 將來自多個相機的 RGB 影像序列、機器人當前的感覺運動狀態以及自然語言指令作為輸入。 VLM 將這些內容編碼為情境特徵,從而指導動作專家產生連續的動作序列。(Source)
此外,SmolVLA 使用的訓練資料全部來自公共來源,並結合 LeRobot 開源社群所分享的真實世界機器人資料。這不僅大幅降低了資料取得門檻,也讓使用者可以貢獻自己的任務資料、參與模型優化,打造真正的協作式模型生態。
》延伸閱讀:平民化的AI機器人開源平台:LeRobot是什麼?
硬體方面,SmolVLA 支援如 SO-100、SO-101、LeKiwi 等平價平台。這些開源機器人平台往往僅需幾百美元即可取得,卻能搭配 SmolVLA 完成語言驅動的複雜操作任務:從分類物品到執行組裝任務,一應俱全。
》延伸閱讀:LeRobot模擬學習與硬體選購全攻略
模型創新:少資料、高效能的對比突破
傳統認為,通用模型需要海量數據支持,但 SmolVLA 打破了這個迷思。透過受到大型語言模型啟發的預訓練-微調流程,它先在通用操作資料(如各種開源模擬場景)上進行預訓練,再針對特定任務進行後訓練,雖然整體僅用不到 3 萬筆訓練資料,卻能在多個基準測試上擊敗規模更大、資料量更多的 VLA 對手。
尤其在 LIBERO 和 Meta-World 等模擬環境,SmolVLA-450M 展現出比肩甚至超越專有模型的性能。在真實環境下如 SO-100 平台,也可與 Meta 所開發的 ACT 等模型一較高下,證明其訓練方法與架構設計的有效性。
非同步推理堆疊:更快、更聰明的行動決策
傳統模型往往將感知、理解與動作串接為一體,導致整體反應速度受限於最慢環節。SmolVLA 則導入「非同步推理堆疊」架構,將感知與行動的邏輯流程拆解、並行處理。這讓機器人在執行動作的同時,可以繼續接收與處理來自環境的視覺資訊,實現即時調整與快速反應。根據開發者的實測,這種架構讓反應速度提升達 30%、任務處理吞吐量則幾乎翻倍。
開源,不只是技術,也是價值觀
SmolVLA 最令人振奮的,或許不只是它的技術成就,而是它所代表的開源精神。它不僅公開模型架構與訓練流程,連模型權重也一併釋出,讓研究者能從中延伸、比較與創新。
此外,SmolVLA 背後的開發團隊更致力於培養社群參與。他們持續舉辦工作坊、分享訓練流程、邀請來自全球的教育者、學生與愛好者一同參與這場「開放機器人」運動。這不只是模型的發佈,更是一種技術民主化的實踐。
更重要的是,SmolVLA 讓語言驅動機器人從象牙塔走進真實世界——教室裡的學生可以部署它,車庫裡的創客可以客製它,實驗室裡的研究者可以重現與擴展它。
》延伸閱讀:
SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data
SmolVLA: Affordable & Efficient VLA Robotics on Consumer GPUs
Github: TheRobotStudio/SO-ARM100
- 小模型革命:SmolVLA 打開機器人普及新局 - 2025/06/18
- 提供在地化豐富資源 DigiKey為亞太區開發者打造專屬入口網站 - 2025/06/18
- 揭示開放式AI產業體系願景 AMD發表全新晶片、軟體與系統 - 2025/06/18
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!