藉DeepSeek雜談AI技術觀念

Posted By 陸向陽 on 2 月 14, 2025 in AIGC, LLM, 技術導讀, 特寫, 觀點 | 0 comments

作者：陸向陽

今年春節期間DeepSeek讓大語言模型再掀熱潮，過去認為大語言模型的每次升級都需要高昂費用、龐大運算力、漫長訓練時間才能實現，DeepSeek卻給出截然不同的答案，以低費用、少量運算力、短暫時間就訓練出與今日主流大語言模型相仿的表現，讓各界吃驚。

不過有關DeepSeek的各種說法，有時候有些混淆，筆者藉此文想聊一下，或許可以幫一些人釐清，或讓平時對AI有興趣的人有更深刻的瞭解。

圖1：DeepSeek-V3與其他知名模型的測試比較，如數學、程式碼、中英文等，粗體字為DeepSeek-V3勝出的項目（圖片來源：DeepSeek官網）

DeepSeek-R1訓練費用不到560萬美元？

DeepSeek自己釋出的53頁技術報告是寫DeepSeek-V3的訓練費用是557萬美元，這是租用運算力來訓練的費用，每顆H800晶片每小時運算需要2美元，因為不是買斷晶片或設備所以便宜，且沒有算開發過程的試錯成本、人員薪資、資料集（或稱數據集）的清理心力等，不過此前其他模型的訓練成本宣稱，其實也是一樣只講究訓練運算力這段，其他部份不好估算，所以齊頭比較依然是DeepSeek大幅便宜。

其次，許多人以為DeepSeek-R1也就是這個訓練費用，其實從V3訓練出R1還是需要額外的訓練調整費用，這塊沒有揭露，如同OpenAI訓練出GPT-4o後再訓練出OpenAI o1也是有額外增加費用的。

不過也有人質疑不可能只用2,048顆H800就訓練出模型，新創公司Scale AI執行長認為用上5萬顆H100（H100比H800強悍，H800是專供中國大陸市場的特有型號，是H100的降規款晶片）。

圖2：DeepSeek釋出的技術報告說明DeepSeek-V3模型的訓練成本（圖片來源：DeepSeek官網）

美國也對新加坡資料中心進行調查，認為可能動用新加坡資料中心的運算力協助其訓練，因為新加坡為亞太區的資料中心重鎮，NVIDIA的營收越來越高比重來自新加坡，已達22%，以至於拜登卸任前五天試圖頒布的AI禁令中，把新加坡列為中度封鎖的國區，避免完全封鎖的國區（22國，如阿富汗、伊朗、中國大陸等）租賃新加坡的運算力，然而川普上任後取消該禁令，推測與NVIDIA嚴重抗議有關，該禁令嚴重傷害NVIDIA的後續銷售。

DeepSeek用蒸餾技術實現？

模型的訓練或模型的輕量化可運用蒸餾技術，DeepSeek曾傳聞是以OpenAI線上服務的模型進行蒸餾而成，傳聞說有大量的API呼叫，不過OpenAI沒有提出證據，之後也放棄控告。（過去OpenAI的使用條款就有言明不許對其進行蒸餾）

再者，全然透過蒸餾實現的模型，是不可能超越學習仿效的模型的，但DeepSeek在各種標竿（benchmark）測試上時有勝出（不是全面勝出，有勝出的部份也多為略勝），故不可能全然倚賴蒸餾，推測還有運用其他手法使其表現勝出。而既然不是大幅勝出，估計也沒有變革性的技術在其中，DeepSeek的重點依然是在訓練成本低廉，模型表現只能說是不相伯仲。

圖3：人工智慧蒸餾（也稱知識蒸餾）示意圖，透過較大的老師模型（左）表現讓較小的學生模型（右）學習，以較小的模型得到與老師相似的智慧表現，但模型得以輕量化（圖片來源：Jianping Gou, Baosheng Yu, Stephen John Maybank, Dacheng Tao ）

DeepSeek開放？

DeepSeek只有開放模型權重（weight），但沒有開放所有訓練程式碼，其他如資料集、訓練日誌、查核點、評估用程式碼、評估框架等也沒有開放，雖然純開放模型權重已經可以再行修改或衍生發展，然依然無法瞭解整體開發精髓。不過目前多數宣稱開源的模型也多是如此，少數模型是真的作到完全的開放，例如OLMo，或OpenELM等。

事實上Linux基金會在去年三月有發布一份模型開放框架（The Model Openness Framework），期望讓機器學習模型的開放性有完整的分級、分類制，避免有洗白式開放（openwashing）。

圖4：模型開放程度涉及17種軟體元件，DeepSeek主要開放模型權重與參數（圖片來源：Linux基金會）

有小參數量的DeepSeek模型

其實完整的DeepSeek模型為671b個參數，有些人已經開始在Ollama下載1.5b至70b參數不等的模型，但這些已經不能算是完整的DeepSeek-R1模型，而是以DeepSeek-R1完整模型為蒸餾的老師模型，然後用Llama（Meta訓練出的開放模型）或Qwen2（第二代通義千問，阿里巴巴訓練出的模型）為學生模型，而後蒸餾出的小型版、輕量版模型。

Ollama上沒有明確標出這是再蒸餾的模型，所以容易被人誤會，有些地方則會在名稱上標註Distil字眼，或至少也帶有Llama或Qwen字眼，就比較不會被人誤會。

另外，倘若DeepSeek真是蒸餾他人模型而得的產物，DeepSeek可以再給其他模型進行蒸餾嗎？答案是可以的，這稱之為多層次蒸餾，技術上可行，效果則再評估。