成員 | MakerPRO

LoRA微調三步驟：以大語言模型MT5為例

本篇文章，將以MT5-small預訓練大模型為例，並以Python源碼(Source Code)來說明如何進行LoRA微調三步驟。

本篇文章會說明Gemma為何會採取Decoder-Only Transformer架構，並針對Decoder-Only Transformer架構進行介紹。

Gemma模型是Text到Text的大型語言模型，非常適合各種文本生成任務。其有多種使用途徑，包括使用新資料來微調Gemma模型、拿Gemma開源程式碼，而從頭開始訓練它，本文將介紹如何從0訓練企業自用Gemma模型。

本文要來介紹如何利用BF16半精度浮點數以及將影像資料設為NHWC格式兩項技術，來最佳化大型AI模型的訓練速度與記憶體節省，並延續以微調模型訓練為範例，透過完整程式碼來示範如何發揮這兩項新技術的用法和魅力。

本文會拿Diffusion來學習及創作書法字體，也就是俗稱的：寫書法。雖然Diffusion也能學習依循標準筆順，來逐筆寫出字形。為了從簡單範例出發，本文先讓Diffusion來學習程生成整個字形，而不是逐一生成各筆劃。

Please wait...