|

因「反思」而強大:TRM微型模型打敗巨型AI!

   

「不是更大的模型才能更聰明,而是更聰明的設計讓模型更有效率。」——三星 SAIL 蒙特婁研究團隊

在人工智慧的黃金年代,業界口號幾乎成了一句信條:「越大越好」。

從 GPT-4、Claude 3.5 到 Gemini 2.5,這場由數十億參數堆疊起來的算力競賽,讓大型語言模型(LLM)成為科技巨頭角力的核心。然而,三星人工智慧實驗室(Samsung AI Lab, SAIL)的一篇新論文卻丟出了一顆震撼彈——一個僅有 700 萬參數 的微型模型,在複雜推理測驗中,竟然擊敗了比它大數千倍的模型

這項研究不僅是技術創舉,更是對整個 AI 發展方向的一次「哲學反思」:我們是否過於迷信規模,而忽略了智慧的真正本質——推理、反思、與自我修正的能力?

從規模神話到效率覺醒

在深度學習的演進歷史中,「規模化」(scaling)一直是驅動突破的關鍵路徑。
更多資料、更多參數、更大算力,似乎自動帶來了更強的表現。OpenAI 的 Scaling Law 更一度被奉為準則——參數數量與性能呈對數關係,只要堆得夠大,就能逼近人類智能。

但這樣的成長代價極為高昂。一個擁有數千億參數的模型,不僅訓練成本動輒上千萬美元,其能耗甚至高達十數兆瓦時,相當於上千戶家庭一年的用電量。更關鍵的是,這些模型雖能生成流暢語句,卻常在多步驟推理或邏輯問題中「思路崩壞」,展現出華而不實的「語言幻覺」。

三星研究團隊決定挑戰這個思維。他們相信,智慧不在於體積,而在於結構。於是,一個名為 Tiny Recursive Model(TRM) 的實驗誕生了。

微型遞歸模型:小腦袋,大智慧

TRM 的靈感來自於人類的思考過程。

當人類面對難題時,並不是一次就能得出答案,而是反覆檢視、修正假設、再推導出新結論。這正是「遞歸」思維的精髓。

在技術層面上,TRM 是一個極為小巧的神經網路——僅 700 萬個參數,規模不到 GPT-4 的十萬分之一。

然而,它透過一種創新的「內部反思循環」,達到令人驚訝的推理能力:

  1. 輸入階段:模型接收問題、初步猜測答案,以及潛在的推理特徵。
  2. 自我修正階段:它根據這三個輸入,不斷迭代地改善自身的潛在推理。
  3. 答案更新階段:在完成若干輪遞歸後,TRM 會利用改進後的推理,重新生成最終答案。

這個過程最多可重複 16 次——意味著模型能像人一樣「反覆思考」,逐步糾正自己的錯誤。

微型遞歸模型(TRM)透過微型網路遞歸地改進其預測答案(source

與以往的多層網絡不同,TRM 採用了僅兩層的結構

令人意外的是,這樣的「縮減」反而提升了泛化能力,避免了常見的過度擬合(overfitting)問題。這讓研究團隊開始重新思考:也許,AI 智慧的真正關鍵不在「更深」或「更寬」,而在「更動態、更反思」。

挑戰傳統架構:從 HRM 到 TRM 的跨越

TRM 的設計靈感部分源自前一代架構——分層推理模型(Hierarchical Reasoning Model, HRM)

HRM 由兩個小型網路組成,分別以不同頻率處理推理層級與答案層級。然而,這種設計相當複雜,需依賴數學上的「不動點定理」來保證收斂,也因此在實作與訓練上極為困難。

三星團隊採取了更直接的策略:他們去除第二個網路,改以單一微型模型遞歸改進自身。更關鍵的是,他們拋棄了不動點假設,採用標準的反向傳播(backpropagation)完成遞歸過程。這不僅簡化了理論假設,也讓訓練更加穩定可行。

結果顯示,這一改動帶來了巨大的效能飛躍。在 Sudoku-Extreme(數獨極限)測試中,TRM 的準確率從 HRM 的 56.5% 提升至 87.4%。同樣,在 Maze-Hard(迷宮求路)任務中,TRM 也以 85.3% 的準確率大幅超越 HRM 的 74.5%

這些數據意味著:AI 不必仰賴海量參數,也能展現深層推理與邏輯規劃的能力——只要它懂得「如何反思自己」。

ARC-AGI 測驗:通往通用智能的試金石

如果說 Sudoku 與 Maze 是演算法層級的測驗,那麼 ARC-AGI(Abstraction and Reasoning Corpus) 則是對「通用智慧」的挑戰。

由 Google DeepMind 科學家 François Chollet 設計的這套基準,用以評估機器是否能在未見過的環境中,依據抽象規則進行推理。這是人工智慧研究者心中的「聖杯」測試——不靠記憶,而靠理解。

令人震驚的是,在這項極具難度的測驗中:

  • TRM(700 萬參數)在 ARC-AGI-1 上取得 44.6% 準確率。
  • 在更具挑戰的 ARC-AGI-2 上,也達到了 7.8%

這些數據不僅超越了前代 HRM(2700 萬參數),甚至勝過 Google 的 Gemini 2.5 Pro(4.9%)。換言之,三星的小模型已經在智慧測驗上擊敗了全球最強的 LLM 之一。

從能源到永續:AI 的新平衡點

除了準確率外,TRM 的另一個關鍵突破在於訓練效率與能源使用。傳統 LLM 的訓練需要龐大的資料集與 GPU 叢集,而 TRM 在實驗中僅使用 1000 個訓練樣本 就能完成學習。這得益於一種稱為 ACT(Adaptive Computation Time) 的自適應機制。

ACT 能判斷模型何時「已經想清楚」並停止遞歸,從而節省大量重複計算。三星團隊更進一步簡化了這一機制,去除高成本的第二次前向傳遞,讓訓練過程變得更加輕量,幾乎不影響泛化性能。

這樣的設計意義深遠:在全球關注 AI 能源與碳排放議題的此刻,TRM 代表了一種「永續智能」(Sustainable Intelligence)的可能。它讓未來的邊緣裝置、IoT 模組甚至手機都有機會執行具推理能力的 AI,而不必仰賴雲端運算。

三星的野心:挑戰規模霸權,重塑 AI 未來

這項研究出自三星 AI 實驗室蒙特婁分部(SAIL Montreal),是該團隊長期探索「高效推理模型」的成果之一。Alexia Jolicoeur-Martineau 強調,這並非單一模型的突破,而是一個設計哲學的轉向——從「堆積算力」轉為「優化思維」。

對三星而言,這不僅是學術成果,更是戰略布局。在行動裝置、半導體與邊緣運算的競爭領域中,三星正試圖打造能在有限算力下運行高階 AI 的平台。TRM 的成功,讓「可部署於手機晶片上的智能推理系統」不再只是夢想。

結語:AI 的未來,也許是一次縮小

三星的 TRM 研究讓人重新思考人工智慧的發展方向。

過去十年,我們見證了模型從百萬到千億參數的爆炸式成長,如今卻開始回望:也許智慧並非來自堆疊,而是來自結構的設計、推理的循環,以及反思的能力

700 萬個參數的小模型,挑戰了大型語言模型的推理霸權;它讓人看到一個全新的願景——

當AI學會思考,而非僅僅生成,它才真正接近智慧。

(責任編輯:歐敏銓)

》延伸閱讀

MakerPRO編輯部

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體,不論是趨勢分析與評論,或創新實作文章,在華文創新創業媒體領域都具有重要的影響力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *