因「反思」而強大：TRM微型模型打敗巨型AI！

Posted By MakerPRO編輯部 on 10 月 14, 2025 in AI關鍵技術, 技術導讀 | 0 comments

「不是更大的模型才能更聰明，而是更聰明的設計讓模型更有效率。」——三星 SAIL 蒙特婁研究團隊

在人工智慧的黃金年代，業界口號幾乎成了一句信條：「越大越好」。

從 GPT-4、Claude 3.5 到 Gemini 2.5，這場由數十億參數堆疊起來的算力競賽，讓大型語言模型（LLM）成為科技巨頭角力的核心。然而，三星人工智慧實驗室（Samsung AI Lab, SAIL）的一篇新論文卻丟出了一顆震撼彈——一個僅有 700 萬參數 的微型模型，在複雜推理測驗中，竟然擊敗了比它大數千倍的模型。

這項研究不僅是技術創舉，更是對整個 AI 發展方向的一次「哲學反思」：我們是否過於迷信規模，而忽略了智慧的真正本質——推理、反思、與自我修正的能力？

從規模神話到效率覺醒

在深度學習的演進歷史中，「規模化」（scaling）一直是驅動突破的關鍵路徑。
更多資料、更多參數、更大算力，似乎自動帶來了更強的表現。OpenAI 的 Scaling Law 更一度被奉為準則——參數數量與性能呈對數關係，只要堆得夠大，就能逼近人類智能。

但這樣的成長代價極為高昂。一個擁有數千億參數的模型，不僅訓練成本動輒上千萬美元，其能耗甚至高達十數兆瓦時，相當於上千戶家庭一年的用電量。更關鍵的是，這些模型雖能生成流暢語句，卻常在多步驟推理或邏輯問題中「思路崩壞」，展現出華而不實的「語言幻覺」。

三星研究團隊決定挑戰這個思維。他們相信，智慧不在於體積，而在於結構。於是，一個名為 Tiny Recursive Model（TRM） 的實驗誕生了。

微型遞歸模型：小腦袋，大智慧

TRM 的靈感來自於人類的思考過程。

當人類面對難題時，並不是一次就能得出答案，而是反覆檢視、修正假設、再推導出新結論。這正是「遞歸」思維的精髓。

在技術層面上，TRM 是一個極為小巧的神經網路——僅 700 萬個參數，規模不到 GPT-4 的十萬分之一。

然而，它透過一種創新的「內部反思循環」，達到令人驚訝的推理能力：

輸入階段：模型接收問題、初步猜測答案，以及潛在的推理特徵。
自我修正階段：它根據這三個輸入，不斷迭代地改善自身的潛在推理。
答案更新階段：在完成若干輪遞歸後，TRM 會利用改進後的推理，重新生成最終答案。

這個過程最多可重複 16 次——意味著模型能像人一樣「反覆思考」，逐步糾正自己的錯誤。

微型遞歸模型（TRM）透過微型網路遞歸地改進其預測答案（source）

與以往的多層網絡不同，TRM 採用了僅兩層的結構。

令人意外的是，這樣的「縮減」反而提升了泛化能力，避免了常見的過度擬合（overfitting）問題。這讓研究團隊開始重新思考：也許，AI 智慧的真正關鍵不在「更深」或「更寬」，而在「更動態、更反思」。

挑戰傳統架構：從 HRM 到 TRM 的跨越

TRM 的設計靈感部分源自前一代架構——分層推理模型（Hierarchical Reasoning Model, HRM）。

HRM 由兩個小型網路組成，分別以不同頻率處理推理層級與答案層級。然而，這種設計相當複雜，需依賴數學上的「不動點定理」來保證收斂，也因此在實作與訓練上極為困難。

三星團隊採取了更直接的策略：他們去除第二個網路，改以單一微型模型遞歸改進自身。更關鍵的是，他們拋棄了不動點假設，採用標準的反向傳播（backpropagation）完成遞歸過程。這不僅簡化了理論假設，也讓訓練更加穩定可行。

結果顯示，這一改動帶來了巨大的效能飛躍。在 Sudoku-Extreme（數獨極限）測試中，TRM 的準確率從 HRM 的 56.5% 提升至 87.4%。同樣，在 Maze-Hard（迷宮求路）任務中，TRM 也以 85.3% 的準確率大幅超越 HRM 的 74.5%。

這些數據意味著：AI 不必仰賴海量參數，也能展現深層推理與邏輯規劃的能力——只要它懂得「如何反思自己」。

ARC-AGI 測驗：通往通用智能的試金石

如果說 Sudoku 與 Maze 是演算法層級的測驗，那麼 ARC-AGI（Abstraction and Reasoning Corpus） 則是對「通用智慧」的挑戰。

由 Google DeepMind 科學家 François Chollet 設計的這套基準，用以評估機器是否能在未見過的環境中，依據抽象規則進行推理。這是人工智慧研究者心中的「聖杯」測試——不靠記憶，而靠理解。

令人震驚的是，在這項極具難度的測驗中：

TRM（700 萬參數）在 ARC-AGI-1 上取得 44.6% 準確率。
在更具挑戰的 ARC-AGI-2 上，也達到了 7.8%。

這些數據不僅超越了前代 HRM（2700 萬參數），甚至勝過 Google 的 Gemini 2.5 Pro（4.9%）。換言之，三星的小模型已經在智慧測驗上擊敗了全球最強的 LLM 之一。

從能源到永續：AI 的新平衡點

除了準確率外，TRM 的另一個關鍵突破在於訓練效率與能源使用。傳統 LLM 的訓練需要龐大的資料集與 GPU 叢集，而 TRM 在實驗中僅使用 1000 個訓練樣本 就能完成學習。這得益於一種稱為 ACT（Adaptive Computation Time） 的自適應機制。

ACT 能判斷模型何時「已經想清楚」並停止遞歸，從而節省大量重複計算。三星團隊更進一步簡化了這一機制，去除高成本的第二次前向傳遞，讓訓練過程變得更加輕量，幾乎不影響泛化性能。

這樣的設計意義深遠：在全球關注 AI 能源與碳排放議題的此刻，TRM 代表了一種「永續智能」（Sustainable Intelligence）的可能。它讓未來的邊緣裝置、IoT 模組甚至手機都有機會執行具推理能力的 AI，而不必仰賴雲端運算。

三星的野心：挑戰規模霸權，重塑 AI 未來

這項研究出自三星 AI 實驗室蒙特婁分部（SAIL Montreal），是該團隊長期探索「高效推理模型」的成果之一。Alexia Jolicoeur-Martineau 強調，這並非單一模型的突破，而是一個設計哲學的轉向——從「堆積算力」轉為「優化思維」。

對三星而言，這不僅是學術成果，更是戰略布局。在行動裝置、半導體與邊緣運算的競爭領域中，三星正試圖打造能在有限算力下運行高階 AI 的平台。TRM 的成功，讓「可部署於手機晶片上的智能推理系統」不再只是夢想。

結語：AI 的未來，也許是一次縮小

三星的 TRM 研究讓人重新思考人工智慧的發展方向。

過去十年，我們見證了模型從百萬到千億參數的爆炸式成長，如今卻開始回望：也許智慧並非來自堆疊，而是來自結構的設計、推理的循環，以及反思的能力。

700 萬個參數的小模型，挑戰了大型語言模型的推理霸權；它讓人看到一個全新的願景——

當AI學會思考，而非僅僅生成，它才真正接近智慧。

（責任編輯：歐敏銓）

》延伸閱讀：

Samsung’s tiny AI model beats giant reasoning LLMs
Samsung Research: “Less is More: Recursive Reasoning with Tiny Networks” (2025)
What is ARC-AGI?
Adaptive Computation Time for Recurrent Neural Networks

About
Latest Posts

MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體，不論是趨勢分析與評論，或創新實作文章，在華文創新創業媒體領域都具有重要的影響力。

Latest posts by MakerPRO編輯部 (see all)

CES 2026：NXP攜手GE HealthCare推動急性照護領域AI創新 - 2026/01/09
CES 2026：達梭系統運用AI技術重塑精準、預測與個人化醫療的未來 - 2026/01/08
CES 2026：AMD展現橫跨客戶端、繪圖與軟體領域的廣泛AI產品組合 - 2026/01/08

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊！