借鏡DeepSeek-R1訓練框架　耐能實現輕量級大語言模型

Posted By MakerPro on 2 月 10, 2025 in AI關鍵技術, 技術新訊, 新聞稿 | 0 comments

耐能(Kneron)宣佈取得了一項技術突破──借助 DeepSeek-R1 論文中提到的尖端訓練技巧，成功讓Kneron自研的LLM模型掌握了「思維鏈推理」(Chain-of-Thought Reasoning)和「自我反思」(Reflection)的能力，並已部署在KNEO300和KNEO330離線式GPT伺服器，為企業提供更智慧精準的AI解決方案。Kneron智慧決策系統已實際部署於醫療、金融等多個應用場景。

Kneron表示，在傳統的 AI 對話系統中，模型往往直接給出答案，但很多時候，這些答案缺乏邏輯推導，容易出現前後矛盾或不夠嚴謹的情況。而「思維鏈推理」讓AI學會像人類一樣，逐步拆解問題，形成清晰的推理步驟透過充分理解複雜問題，提供更可靠、專業的答案。更重要的是，Kneron的AI還具備了「自我反思」能力，也就是在回答複雜問題時，可以回顧自己的推理過程，檢查是否有邏輯錯誤，並在發現問題後主動調整答案。這種能力在數學計算、金融分析、醫療診斷等領域尤其重要，因為這些場景需要AI不僅提供答案，還要保證答案的正確性和推理過程的嚴謹性。

圖一: 原始模型對推理性問題回答並不理想

圖二：經訓練提升後， KneronLLM-R1可以有一個推理思考的過程，透過思考輸出更正確的答案

Kneron解釋，此次技術突破的核心在於借鏡了DeepSeek-R1論文中提出的強化學習(Reinforcement Learning，RL)和蒸餾(Distillation)等技術，並加以融合，使Kneron AI在訓練過程中逐步學會推理和反思。其關鍵步驟包括：

高品質資料整理與冷啟動訓練
參考DeepSeek-R1的方法，Kneron透過構建高品質思維鏈資料，精心篩選多輪推理範例，進行冷啟動訓練。這一階段提高了模型的可讀性和穩定性，使 AI 具備基本推理能力。
拒絕取樣 + 蒸餾
Kneron 採用拒絕取樣（Rejection Sampling），篩選出最佳推理路徑，並結合知識蒸餾（Knowledge Distillation），將Deepseek-r1及o1等大模型的推理能力遷移到輕量級模型，使Kneron AI既具備強大的推理能力，又能在KNEO300和KNEO330上高效率運做。
強化學習最佳化推理能力
訓練後期，Kneron採用類似於DeepSeek-R1的強化學習策略，在訓練過程中讓AI透過自對比和獎勵機制學習最佳推理路徑。模型會生成多個不同的推理鏈，並根據準確性和邏輯一致性進行最佳化。
語言一致性與長文本優化
由於 AI 需要適應不同場景，Kneron 還借鑒 DeepSeek-R1 在語言優化方面的方法，引入語言一致性獎勵，確保模型在複雜推理過程中保持邏輯清晰，避免回答混亂或前後矛盾。

最終，Kneron 成功將這一強化版AI部署在KNEO300和KNEO330離線式GPT伺服器上，讓更多企業和開發者可以直接使用具備推理能力的AI，為他們的業務賦能。Kneron表示已經在以下產業應用場景中實現部署：