|

1-bit LLM的革命:BitNet 的新典範與挑戰

   

作者:歐敏銓

 

當大型語言模型的規模不斷擴張,算力與能耗的壓力也持續飆升,業界迫切需要一種能兼顧效率與性能的解方。BitNet 的出現,為這場硬體與模型的拉鋸戰帶來了新可能,它以「1-bit Transformer」的極致壓縮,展示了語言模型在記憶體與能源效率上的全新想像。而進一步的 Falcon-Edge (SLM)與 onebitllms(輕量級 Python 套件),更為這條技術路徑打開了可實用化的希望之門。

記憶體與算力的隱形戰爭

近年來,大型語言模型(LLM)的進展猶如賽車般飛速,從 GPT、LLaMA 到 DeepSeek,每一代都在規模與表現上刷新紀錄。然而,這股狂飆的背後,卻伴隨著龐大的計算與能源代價。模型愈大,所需的 GPU 記憶體、計算時間以及分散式部署的通訊成本也隨之急劇增加,這讓許多想要將模型真正落地的應用,陷入能耗與成本的困境。

為了讓巨獸般的模型能在資源有限的邊緣環境中運作,「模型量化」(Model Quantization)逐漸成為主流手法。傳統的做法大多是後訓練量化,即在完成全精度(如 FP16)訓練後,再將模型權重降精度到 FP8 或 INT8。雖然簡單直接,但這種做法往往會伴隨性能的顯著損失。而相對進階的「量化感知訓練」(Quantization-Aware Training, QAT)則允許模型在訓練過程中就意識到精度限制,進而保持更好的性能。

Quantization-Aware Training (QAT, 左) vs Post-Training Quantization (PTQ, 右)(source

正是在這個背景下,BitNet 的出現顯得格外引人注目。它不是在訓練後「削減」權重,而是從一開始就以 1-bit 權重出發,徹底挑戰人們對語言模型精度的既有想像。

BitNet:1-bit Transformer 的誕生

BitNet 的核心創新在於「BitLinear」,這是一種專為 1-bit 訓練設計的替代層,取代了 PyTorch 中的 nn.Linear。透過這樣的替換,BitNet 不僅能以 1.58 bit 的權重進行運算,還能在多個語言建模基準上展現出與 FP16 或 8-bit Transformer 相競爭的性能。

研究團隊的實驗顯示(見延伸閱讀論文),BitNet 在語言建模任務上維持了可觀的準確度,同時大幅降低了記憶體占用與能耗。更重要的是,它遵循了與全精度 Transformer 相同的縮放定律(Scaling Law),意味著這種 1-bit 模型並非短期權宜之計,而是具備擴展到更大規模的潛力。

換句話說,BitNet 並不是一個單純的「壓縮版本」,而是可能重新定義未來模型架構的一種新方式。

》延伸閱讀:

[1] BitNet: Scaling 1-bit Transformers for Large Language Models(2023/10/17發表論文)

[2] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits(2024/2/27發表論文)

[3] 1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs(2024/10/23發表)

[4] BitNet b1.58 2B4T Technical Report(2025/4/16發表論文)

為什麼 1-bit 意義重大?

相比 FP16 或 FP8,BitNet 的權重甚至不是傳統的二元,而是三元集合 {-1, 0, 1}。這樣的設計不僅壓縮了儲存成本,更在理論上為「無矩陣乘法」的語言模型設計鋪平道路。這意味著未來的模型推理可能跳脫傳統線性代數運算的框架,進一步提升速度與能源效率。

不同精度模型比較

LlaMa LLM與BitNet b1.58效能比較

但挑戰也隨之而來。1-bit 模型必須從零開始訓練,因為現有的微調技術(如將非 BitNet 模型直接轉換為 BitNet 模型)效果不佳。這也使得社群在推動 BitNet 的落地上,面臨效能與實際部署時的便利性和可用性等難題。

社群挑戰與突破

去年(2024)10月微軟釋出了 bitnet.cpp 框架,使部分架構的 CPU 推理速度提升高達五倍,這讓 BitNet 在本地端部署更具吸引力。目前官方模型是BitNet-b1.58-2B-4T, 支援的1-bit模型如下:

然而,社群普遍仍將 BitNet 視為「概念驗證」而非成熟技術,主要因為:

  1. 效能差距:現有 BitNet 模型尚未能全面匹敵同規模的傳統模型。
  2. 可取用性不足:由於需要從零開始訓練,使用門檻高昂,限制了其普及。

Falcon-Edge:全新訓練典範

在 BitNet 的啟發下,來自阿拉伯的TII先進研究組織進一步推出了 Falcon-Edge,採用一種全新的預訓練流程,能同時生成多種格式的模型:

  • bfloat16 的非量化模型,保留高精度以便某些場景應用;
  • 原生 BitNet 模型,追求極致的效率與能耗表現;
  • 預先量化的 BitNet 變體,為微調與應用落地提供便利。

Falcon-Edge 目前提供 1B、3B與最新的2B等參數規模,並且區分基礎型與指令調優型,讓開發者能根據需求自由選擇。這種「一套流程,產出多種模型」的方法,為開發者節省了大量人力與計算資源,也打開了 BitNet 模型在邊緣端與多樣化應用中的可能性。

onebitllms:輕量級的微調方案

為了降低使用門檻,TII團隊還推出了 onebitllms,這是一個輕量級 Python 套件,可無縫插入常用的 LLM 微調工具鏈。它的功能包括:

  • 將預先量化的模型檢查點轉換為 BitNet 訓練格式;
  • 提供 bfloat16 與 BitNet 兩種量化訓練檢查點的互轉方法;
  • 支援更細粒度的控制,例如透過 BitLinear 注入裸核與 Triton 核心。

雖然目前僅支援完整微調,且規模偏小,但這為未來支援 參數高效微調(PEFT) 打下基礎。這意味著在不久的將來,BitNet 也能擁有類似 LoRA 的輕量化微調方法,大幅降低應用門檻。

未來的研究藍圖

BitNet 與 Falcon-Edge 的誕生不僅僅是一個技術突破,更像是一場未完成的實驗。研究團隊與社群正在探索的方向包括:

  • 在 GPU 上開發更高效的推理核心,使 BitNet 不僅在 CPU 上,甚至在 GPU 上也能超越傳統模型;
  • 引入 PEFT 微調方法,讓 BitNet 真正進入應用場景;
  • 提升檢查點的通用性,減少 BitNet 與 bfloat16 模型之間的性能落差;
  • 延伸至多模態應用,甚至打造第一個基於 BitNet 的視覺語言模型(VLM)。

這些方向的探索,不僅將決定 BitNet 能否從實驗室走向大規模應用,也可能徹底改變未來 AI 模型的設計方式。

1-bit 革命的開端

從 BitNet 的 1-bit Transformer,到 Falcon-Edge 的全新預訓練範式,再到 onebitllms 的輕量化工具鏈,我們看到的是一條從概念驗證走向實用化的技術路徑。雖然目前 BitNet 的效能與可用性仍在追趕傳統 LLM,但其在記憶體效率、能源消耗與未來可擴展性上的潛力,已足以讓人將其視為下一代 AI 架構的重要候選。

正如 GPU 曾為深度學習的黃金時代鋪路,BitNet 與其衍生生態系或許正在為「高效 AI」的時代拉開序幕。這場 1-bit 革命,才剛剛開始。

》延伸閱讀:

[5] Quantization aware training技術導讀

[6] Quantization-Aware Training for Large Language Models with PyTorch

[7] Bitnet.cpp an opensource LLM platform by Microsoft

owenou

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: owenou

曾投身IT、電子科技媒體報導十多年,因認同Maker運動的創新實作精神,創立MakerPRO,致力結合媒體、產業與PRO Maker、開發者的社群力量,共同推展科技創造力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *