當AI學會自我演化，將自訂遊戲規則？

Posted By owenou on 6 月 11, 2025 in Gemini, 技術新訊, 特寫 | 0 comments

作者：歐敏銓

「當AI不再只是被訓練者，而是訓練者本身，世界將如何改變？」這正是AlphaEvolve的核心概念 — 自我演化AI。

凌晨時分，太平洋東岸的某機房裡，微微的燈光下，一群靜默運作的伺服器正在熱烈地在進行一場「自我演化」的運動。

這裏，沒有工程師的介入，只有程式碼在訓練另一段程式碼。

這是真實的場景，一個Google DeepMind內部代號為 「AlphaEvolve」 的實驗項目，目標是要讓AI學會「自己如何變得更聰明」。這計畫要讓AI不再只是從人類身上學習，而是試圖模擬演化的過程，超越模仿、走向創造。

從「人為訓練」走向「自我演化」

今日AI模型如何誕生的？一開始需有專家提出一套演算法，再輸入資料、耐心訓練後才產生模型，若效果不如預期，專家再一次次調校演算法、重新訓練，直到滿意為止。

這個模型優化的過程，由「人」決定。

不過，我們都知道，終有一天AI會走出自己的路，而像AlphaEvolve這樣的計畫，正在嘗試實現「自我演化」：AI不只是接收訓練資料，而是主動產生訓練資料；不是選擇模型架構，而是自己設計模型架構，再進行競爭淘汰。

聽起來是不是很像數位版的「適者生存」法則？

從AlphaGo到AlphaZero

Source

還記得打敗世界棋王的AlphaGo吧，那可說是奠定AI地位的關鍵時刻。它的接班人AlphaZero更厲害了，透過自我學習方式精通多種策略型棋類遊戲，僅花費數小時的訓練時間，便能擊敗當時世界最強的棋類程式，如西洋棋的 Stockfish 與日本將棋的 Elmo。

不同於以往依賴大量人類棋譜訓練的AI，AlphaZero 自創性地從零開始學習遊戲規則，並利用自我對弈的方式，不斷修正與優化自己的決策模式，展現了深度強化學習技術的突破性成果。它的核心在於其通用化的學習架構，能夠適應不同類型的棋局，而不需針對特定遊戲進行調整。

AlphaZero 的成功不僅代表 AI 在遊戲領域的飛躍，也開啟了人工智慧朝通用學習方向邁進的可能性。它證明了在沒有人類資料指引的情況下，AI 仍可藉由自我對弈逐步達到超人水準，這種方法論為未來在醫療、物流甚至機器人自主決策等領域的應用奠定基礎。

自訂遊戲規則：AlphaEvolve

當AlphaZero在棋類世界透過自我對弈不斷進步，證明了AI能無需人類指導自行完成學習任務，AlphaEvolve更進一步，不僅有自學策略，還能改寫自己的規則與目標。它不再是單純思考棋路的棋手，而是遊戲規則的設計者。

根據《AlphaEvolve：用於科學和演算法發現的編碼代理》白皮書報告，AlphaEvolve 的核心是一套由大型語言模型（LLM）驅動的自主管線，它能夠直接修改與演化演算法程式碼，根據任務回饋不斷迭代，創造出更高效或更創新的解法。

AlphaEvolve的高層概述圖（Source）

這並不是隨機試錯的機制。AlphaEvolve像一位演化生物學家，持續從一或多個評估器接收結果，再進行有方向性的改進。每一次改寫程式碼，都是一次類達爾文式的突變實驗，而保留下來的，則是那些能讓系統整體表現顯著提升的演算法基因。

上圖展示了提示採樣器如何先為語言模型組裝提示，然後產生新的程式。這些程序由評估器評估並儲存在程序資料庫中。該資料庫實作了一種演化演算法，用於確定哪些程式將用於未來的提示。(Source)

研究人員將這套系統應用於Google內部多項核心計算任務，成果令人驚豔。

在資料中心管理方面，AlphaEvolve成功開發出一套全新的資源調度演算法，大幅提升系統運算效率；在硬體設計領域，它甚至找到了能夠簡化加速器電路設計的數學對等方案，減少晶片複雜度，提升效能。更令人矚目的是，AlphaEvolve還加速了其自身所依賴的LLM訓練流程 — 一種AI優化AI的閉環現象。