|
View Categories

SLM小型語言模型的認定與範例比較

閱讀時間: < 1 分鐘

作者:陸向陽

ChatGPT走紅後開啟了各界對大語言模型(LLM)的關注,但是大語言模型參數(parameter)量龐大,大體只能在雲端資料中心內執行(或稱為推論),但雲端共用模型有諸多缺點,例如斷網不能用、模型後續被大量偏頗問答所誤導偏移、必須尊重普世價值而設定言語審查機制(不回應炸彈、毒品等議題)等。

一般認定:7B個參數以下的模型可視為SLM #

所以各界開始期望有能在自己電腦上執行的版本,甚至能客製化微調,但參數量過大是其阻礙,故各界開始積極將模型縮小、輕量化,因而有了小語言(SLM)模型,小語言一詞是相對於大語言,兩者沒有很清晰的分界,一般認定7B(70億)個參數以下的模型即可視為小模型。

設定為7b以下可能是期望在8/16GB記憶體的電腦上也能執行,但這是以權重8位元下的設定,如此模型勉強可放入8/16GB記憶體(仍要保留其他空間給其他服務程式使用)內,然如今諸多模型已將權重降至6位元、4位元甚至更低,因此不用硬性堅持要低於7b,略大亦可,視情況而定,但前提是運算力依然要足,Microsoft目前建議跑本地端AI的電腦至少要有40TOPS效能(8位元權重時)。

SLM範例模型比較 #

無論開放或封閉(或稱專屬)的大語言模型,其實都有朝小型化衍生發展的趨勢,開放自不用說,各界取得模型參數、架構、程式碼、資料集後,即可對模型進行各種輕量化工程。舉例而言,Meta提出的開放模型Llama 2即有人縮小出TinyLlama,從Tiny一詞即可看出其意涵。

封閉的模型其實也有中小型化,如Google的Gemini模型除了Ultra版、Pro版外也有Nano版,Nano版參數量約18~35億,已低於70億,或如OpenAI也有OenAI o3-mini、GPT-4o mini等迷你版,但因為非常封閉,mini版連參數量也不得而知,但至少可以確定OpenAI並不是一路走來只訓練大模型。

另外也有一起頭就確定走小型化路線的,如Microsoft的Phi系列模型,因為Microsoft已經與OpenAI技術合作,Microsoft可以取用OpenAI的大語言模型技術,自然自身的發展可以區隔或另行路線探索,Phi已經推進了到第四版,即Phi4,參數大致在2.7b、3.8b,但也有14b版,14b已大於7b。

進一步的,模型要縮小的技術手法相當多,例如量化、剪枝、蒸餾、二元化等,也有人特別強調其SLM是以蒸餾方式形成,例如DistilBERT就是從BERT模型蒸餾而成,從名稱上已可看出。

另外,DeepSeek-V3/R1模型其實也達671b之大,無法在本地端執行,故也有蒸餾版,例如以DeepSeek模型為老師模型,以Llama或Qwen為學生模型,從而訓練出小參數量的DeepSeek-R1-Distill-Llama-8BDeepSeek-R1-Distill-Qwen-7B,前者略大於7b。

註2:也有一些蒸餾版模型是官方自己出的,例如Google Gemini 1.5 Flash即是利用Gemini 1.5 Pro蒸餾而成,蒸餾版不盡然都是由第三方(Third Party,官方第一方、用戶第二方)提供。

或者也有OpenAI早期尚未採行封閉策略時的模型可用,如GPT-2,當時的模型尚小,參數量約1.24億,與之後的GPT-3完全無法比(1,750億),OpenAI後續的模型都採封閉式訓練,如GPT-3.5、GPT-4等,現階段可用為GPT-2。

或許日後隨OpenAI持續向前推進會釋出GPT-3.5、GPT-4等模型,如此即有望有人對其再行發展出輕量化版本,但也可能不會釋出,畢竟已有許多個人跟企業付費使用GPT-3.5以上的服務,為確保其付費質感而不會釋出,或採行某種變相、妥協的方式釋出,確保已付費者不會抱怨。

完整文章連結

Powered by BetterDocs

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *