如何客製化企業 RAG 知識庫?— 從資料庫到知識整合的實戰技術
|

小模型革命:SmolVLA 打開機器人普及新局

   

SmolVLA 的出現,讓我們看見機器人領域不一定需要燒錢堆資源才能創新。它用僅 450M參數、不到三萬筆訓練資料與消費級硬體,證明了開源架構也能具備世界級表現。

當 Transformer 成為人工智慧的顯學,從語言模型至多模態理解不斷取得進展,無數研究者興奮地預言 AGI(通用人工智慧)的黎明即將到來。然而,在與物理世界直接互動的機器人領域,進展卻相對緩慢,究意卡在哪裏呢?

語言模型可以寫詩、作畫,甚至分析法律文本;多模態模型能理解圖像與語句的關聯、為照片生成描述。但對一台機器人而言,真正的挑戰不只是「理解」,而是「行動」──當你說出「把藍色杯子放到桌上」,機器人要看懂場景、理解語意、規劃運動,並克服感測噪訊與物理不確定性。這不是模擬,而是現實世界。

然而現有的機器人系統往往缺乏一項關鍵能力:通用化(Generalization)。在變動的場景裡,要讓機器人能跨任務、跨環境甚至跨設備執行語言驅動的任務,目前依賴的還是高度客製化、硬體需求龐大的封閉系統。缺乏可獲取的高品質資料集與平價訓練環境,使得大多數研究者只能自求多福了。

VLA:統一感知、語言與行動的未來架構

為了突破瓶頸,研究社群近年轉向一種新型的整合架構:視覺-語言-動作(Vision-Language-Action,簡稱 VLA)模型。這類模型的設計靈感源自人類的認知模式:我們透過眼睛看、用語言理解,再作出身體動作。VLA 模型同樣將影像與文字作為輸入,輸出則是機器人該如何動作的預測結果。

這看似可行的結構卻面臨一個困境:資源門檻太高。最先進的 VLA 模型多半是由大型科技公司打造,依賴私有資料集與價值數十萬美元的訓練設備,即使它們成果卓著,但缺乏可複製性與開源精神,也讓更多中小型機器人實驗室、學校與開發者難以參與。

就在這樣的背景下,一個「小而美」的專案登場了,它的名字是──SmolVLA

SmolVLA:給每個人都能上手的通用機器人模型

SmolVLA 在各種任務中的比較。從左到右:(1) 非同步拾放立方體計數,(2) 同步拾放立方體計數,(3) 擾動下的拾放立方體計數,以及 (4) 使用現實世界 SO101 對樂高積木進行通用化拾放。(Source)

SmolVLA 並非來自巨頭實驗室的百萬專案,而是一個開源、緊湊卻功能完整的 VLA 架構。它的核心理念很單純:讓語言與視覺驅動的機器人不再是只有科技大佬才能玩得起的技術

SmolVLA-450M 是目前的主力模型,它的參數規模遠低於動輒數十億的同類模型,其輕量化讓它能在消費級 GPU,甚至是高階 MacBook 上直接訓練和推理。對於教育工作者、小型研究團隊和創客社群而言,這無疑是一大福音。

SmolVLA 將來自多個相機的 RGB 影像序列、機器人當前的感覺運動狀態以及自然語言指令作為輸入。 VLM 將這些內容編碼為情境特徵,從而指導動作專家產生連續的動作序列。(Source

此外,SmolVLA 使用的訓練資料全部來自公共來源,並結合 LeRobot 開源社群所分享的真實世界機器人資料。這不僅大幅降低了資料取得門檻,也讓使用者可以貢獻自己的任務資料、參與模型優化,打造真正的協作式模型生態。

》延伸閱讀:平民化的AI機器人開源平台:LeRobot是什麼?

硬體方面,SmolVLA 支援如 SO-100、SO-101、LeKiwi 等平價平台。這些開源機器人平台往往僅需幾百美元即可取得,卻能搭配 SmolVLA 完成語言驅動的複雜操作任務:從分類物品到執行組裝任務,一應俱全。

》延伸閱讀:LeRobot模擬學習與硬體選購全攻略

模型創新:少資料、高效能的對比突破

傳統認為,通用模型需要海量數據支持,但 SmolVLA 打破了這個迷思。透過受到大型語言模型啟發的預訓練-微調流程,它先在通用操作資料(如各種開源模擬場景)上進行預訓練,再針對特定任務進行後訓練,雖然整體僅用不到 3 萬筆訓練資料,卻能在多個基準測試上擊敗規模更大、資料量更多的 VLA 對手。

尤其在 LIBERO 和 Meta-World 等模擬環境,SmolVLA-450M 展現出比肩甚至超越專有模型的性能。在真實環境下如 SO-100 平台,也可與 Meta 所開發的 ACT 等模型一較高下,證明其訓練方法與架構設計的有效性。

非同步推理堆疊:更快、更聰明的行動決策

傳統模型往往將感知、理解與動作串接為一體,導致整體反應速度受限於最慢環節。SmolVLA 則導入「非同步推理堆疊」架構,將感知與行動的邏輯流程拆解、並行處理。這讓機器人在執行動作的同時,可以繼續接收與處理來自環境的視覺資訊,實現即時調整與快速反應。根據開發者的實測,這種架構讓反應速度提升達 30%、任務處理吞吐量則幾乎翻倍。

開源,不只是技術,也是價值觀

SmolVLA 最令人振奮的,或許不只是它的技術成就,而是它所代表的開源精神。它不僅公開模型架構與訓練流程,連模型權重也一併釋出,讓研究者能從中延伸、比較與創新。

此外,SmolVLA 背後的開發團隊更致力於培養社群參與。他們持續舉辦工作坊、分享訓練流程、邀請來自全球的教育者、學生與愛好者一同參與這場「開放機器人」運動。這不只是模型的發佈,更是一種技術民主化的實踐。

更重要的是,SmolVLA 讓語言驅動機器人從象牙塔走進真實世界——教室裡的學生可以部署它,車庫裡的創客可以客製它,實驗室裡的研究者可以重現與擴展它。

》延伸閱讀:

SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data

SmolVLA: Affordable & Efficient VLA Robotics on Consumer GPUs

Github: TheRobotStudio/SO-ARM100

 

MakerPRO編輯部

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體,不論是趨勢分析與評論,或創新實作文章,在華文創新創業媒體領域都具有重要的影響力。

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *