「不是更大的模型才能更聰明,而是更聰明的設計讓模型更有效率。」——三星 SAIL 蒙特婁研究團隊
在人工智慧的黃金年代,業界口號幾乎成了一句信條:「越大越好」。
從 GPT-4、Claude 3.5 到 Gemini 2.5,這場由數十億參數堆疊起來的算力競賽,讓大型語言模型(LLM)成為科技巨頭角力的核心。然而,三星人工智慧實驗室(Samsung AI Lab, SAIL)的一篇新論文卻丟出了一顆震撼彈——一個僅有 700 萬參數 的微型模型,在複雜推理測驗中,竟然擊敗了比它大數千倍的模型。
這項研究不僅是技術創舉,更是對整個 AI 發展方向的一次「哲學反思」:我們是否過於迷信規模,而忽略了智慧的真正本質——推理、反思、與自我修正的能力?
從規模神話到效率覺醒
在深度學習的演進歷史中,「規模化」(scaling)一直是驅動突破的關鍵路徑。
更多資料、更多參數、更大算力,似乎自動帶來了更強的表現。OpenAI 的 Scaling Law 更一度被奉為準則——參數數量與性能呈對數關係,只要堆得夠大,就能逼近人類智能。
但這樣的成長代價極為高昂。一個擁有數千億參數的模型,不僅訓練成本動輒上千萬美元,其能耗甚至高達十數兆瓦時,相當於上千戶家庭一年的用電量。更關鍵的是,這些模型雖能生成流暢語句,卻常在多步驟推理或邏輯問題中「思路崩壞」,展現出華而不實的「語言幻覺」。
三星研究團隊決定挑戰這個思維。他們相信,智慧不在於體積,而在於結構。於是,一個名為 Tiny Recursive Model(TRM) 的實驗誕生了。
微型遞歸模型:小腦袋,大智慧
TRM 的靈感來自於人類的思考過程。
當人類面對難題時,並不是一次就能得出答案,而是反覆檢視、修正假設、再推導出新結論。這正是「遞歸」思維的精髓。
在技術層面上,TRM 是一個極為小巧的神經網路——僅 700 萬個參數,規模不到 GPT-4 的十萬分之一。
然而,它透過一種創新的「內部反思循環」,達到令人驚訝的推理能力:
- 輸入階段:模型接收問題、初步猜測答案,以及潛在的推理特徵。
- 自我修正階段:它根據這三個輸入,不斷迭代地改善自身的潛在推理。
- 答案更新階段:在完成若干輪遞歸後,TRM 會利用改進後的推理,重新生成最終答案。
這個過程最多可重複 16 次——意味著模型能像人一樣「反覆思考」,逐步糾正自己的錯誤。

微型遞歸模型(TRM)透過微型網路遞歸地改進其預測答案(source)
與以往的多層網絡不同,TRM 採用了僅兩層的結構。
令人意外的是,這樣的「縮減」反而提升了泛化能力,避免了常見的過度擬合(overfitting)問題。這讓研究團隊開始重新思考:也許,AI 智慧的真正關鍵不在「更深」或「更寬」,而在「更動態、更反思」。
挑戰傳統架構:從 HRM 到 TRM 的跨越
TRM 的設計靈感部分源自前一代架構——分層推理模型(Hierarchical Reasoning Model, HRM)。
HRM 由兩個小型網路組成,分別以不同頻率處理推理層級與答案層級。然而,這種設計相當複雜,需依賴數學上的「不動點定理」來保證收斂,也因此在實作與訓練上極為困難。
三星團隊採取了更直接的策略:他們去除第二個網路,改以單一微型模型遞歸改進自身。更關鍵的是,他們拋棄了不動點假設,採用標準的反向傳播(backpropagation)完成遞歸過程。這不僅簡化了理論假設,也讓訓練更加穩定可行。
結果顯示,這一改動帶來了巨大的效能飛躍。在 Sudoku-Extreme(數獨極限)測試中,TRM 的準確率從 HRM 的 56.5% 提升至 87.4%。同樣,在 Maze-Hard(迷宮求路)任務中,TRM 也以 85.3% 的準確率大幅超越 HRM 的 74.5%。
這些數據意味著:AI 不必仰賴海量參數,也能展現深層推理與邏輯規劃的能力——只要它懂得「如何反思自己」。
ARC-AGI 測驗:通往通用智能的試金石
如果說 Sudoku 與 Maze 是演算法層級的測驗,那麼 ARC-AGI(Abstraction and Reasoning Corpus) 則是對「通用智慧」的挑戰。
由 Google DeepMind 科學家 François Chollet 設計的這套基準,用以評估機器是否能在未見過的環境中,依據抽象規則進行推理。這是人工智慧研究者心中的「聖杯」測試——不靠記憶,而靠理解。
令人震驚的是,在這項極具難度的測驗中:
- TRM(700 萬參數)在 ARC-AGI-1 上取得 44.6% 準確率。
- 在更具挑戰的 ARC-AGI-2 上,也達到了 7.8%。
這些數據不僅超越了前代 HRM(2700 萬參數),甚至勝過 Google 的 Gemini 2.5 Pro(4.9%)。換言之,三星的小模型已經在智慧測驗上擊敗了全球最強的 LLM 之一。
從能源到永續:AI 的新平衡點
除了準確率外,TRM 的另一個關鍵突破在於訓練效率與能源使用。傳統 LLM 的訓練需要龐大的資料集與 GPU 叢集,而 TRM 在實驗中僅使用 1000 個訓練樣本 就能完成學習。這得益於一種稱為 ACT(Adaptive Computation Time) 的自適應機制。
ACT 能判斷模型何時「已經想清楚」並停止遞歸,從而節省大量重複計算。三星團隊更進一步簡化了這一機制,去除高成本的第二次前向傳遞,讓訓練過程變得更加輕量,幾乎不影響泛化性能。
這樣的設計意義深遠:在全球關注 AI 能源與碳排放議題的此刻,TRM 代表了一種「永續智能」(Sustainable Intelligence)的可能。它讓未來的邊緣裝置、IoT 模組甚至手機都有機會執行具推理能力的 AI,而不必仰賴雲端運算。
三星的野心:挑戰規模霸權,重塑 AI 未來
這項研究出自三星 AI 實驗室蒙特婁分部(SAIL Montreal),是該團隊長期探索「高效推理模型」的成果之一。Alexia Jolicoeur-Martineau 強調,這並非單一模型的突破,而是一個設計哲學的轉向——從「堆積算力」轉為「優化思維」。
對三星而言,這不僅是學術成果,更是戰略布局。在行動裝置、半導體與邊緣運算的競爭領域中,三星正試圖打造能在有限算力下運行高階 AI 的平台。TRM 的成功,讓「可部署於手機晶片上的智能推理系統」不再只是夢想。
結語:AI 的未來,也許是一次縮小
三星的 TRM 研究讓人重新思考人工智慧的發展方向。
過去十年,我們見證了模型從百萬到千億參數的爆炸式成長,如今卻開始回望:也許智慧並非來自堆疊,而是來自結構的設計、推理的循環,以及反思的能力。
700 萬個參數的小模型,挑戰了大型語言模型的推理霸權;它讓人看到一個全新的願景——
當AI學會思考,而非僅僅生成,它才真正接近智慧。
(責任編輯:歐敏銓)
》延伸閱讀:
- Samsung’s tiny AI model beats giant reasoning LLMs
- Samsung Research: “Less is More: Recursive Reasoning with Tiny Networks” (2025)
- What is ARC-AGI?
- Adaptive Computation Time for Recurrent Neural Networks
- 因「反思」而強大:TRM微型模型打敗巨型AI! - 2025/10/14
- PyTorch Lightning:讓深度學習更高效、更乾淨的框架 - 2025/10/13
- 宣佈收購Arduino 高通積極拉攏Edge AI開發者社群 - 2025/10/08
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!