作者:歐敏銓
LegoGPT 的問世,象徵生成式 AI 正式跨出純數位內容的限制。過去,生成式 AI 主要應用於圖像、語言、音訊等虛擬內容,LegoGPT 則代表 AI 開始與現實物理邏輯結合,進入「實體建構」的新應用層次。
來自美國卡內基美隆大學(Carnegie Mellon University, CMU)的研究團隊,近日推出一項引人注目的創新成果——LegoGPT。這是一款結合大型語言模型(LLM)與三維幾何邏輯的系統,能根據文字提示自動生成物理穩定的樂高積木設計。
研究團隊指出:「LegoGPT 是第一個能夠將自然語言描述轉化為實體可組裝的樂高模型的系統。」這項技術不僅能實現創意圖像的具體化,更邁向了生成式 AI 應用於實體建構領域的新里程碑。
模型生成機制:語言與幾何的融合
LegoGPT 的核心運作包含三大步驟:
- 語言轉換設計編碼:系統將樂高設計編碼為從下至上的一連串文字標記,彷彿掃描圖像般逐層構築;
- 微調語言模型:透過建立磚塊序列與語意描述的對應指令資料集,研究團隊使用微調後的 LLaMA-3.2-Instruct-1B 模型進行訓練;
- 逐塊生成與穩定性驗證:系統在推理時會依據提示逐一生成積木,並於每一步進行格式與結構驗證,確保無衝突且結構穩固。
若生成的設計出現不穩定,系統會自動剔除相關磚塊並重新從穩定節點繼續建構,展現出高度的自我修正與物理邏輯判斷能力。
打造龐大資料集與自動化潛力
為了訓練這套模型,研究團隊建立了名為 StableText2Lego 的資料集,內含超過 47,000 個樂高結構與 28,000 個獨特的 3D 對象,每個設計都附有詳細文字說明,並與模型、程式碼一併開源釋出於 GitHub(連結)。
除了基本形狀設計外,LegoGPT 還能根據外觀描述產出彩色及具紋理的樂高模型,支援手動與機器人自動組裝(以下影片為組裝吉他樂高),為教育與創客領域提供全新可能。
生成式 AI 的新方向:跨入實體建構
LegoGPT 的問世,象徵生成式 AI 正式跨出純數位內容的限制。過去,生成式 AI 主要應用於圖像、語言、音訊等虛擬內容,LegoGPT 則代表 AI 開始與現實物理邏輯結合,進入「實體建構」的新應用層次。
正如研究團隊所言:「我們希望這項技術能為教育、娛樂與創新設計帶來更多靈感,並推動 AI 與現實世界互動的新模式。」
(初稿協作:AI)
》延伸閱讀:
Generating Physically Stable and Buildable LEGO® Designs from Text
- 【當LLM遇上樂高】CMU推自動生成積木設計的 LegoGPT 開源工具 - 2025/05/15
- 從多模態到全模態:AI 邁向理解世界的下一步 - 2025/05/13
- 認識IPEX-LLM:LLM模型最佳化的PyTorch工具 - 2025/05/09
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!