【啟動AI Maker世代 】2024 MAI 開發者社群大會(5/16-17)
|

如何利用低位元量化技術進一步提升大模型推論性能

   
作者:楊亦誠

針對大語言模型(LLM)在部署過程中的性能需求,低位元量化技術一直是優化效果最佳的方案之一,本文將探討低位元量化技術如何幫助LLM提升性能,以及新版OpenVINO 對於低位元量化技術的支援。

大模型性能瓶頸

相比運算量的增加,大模型推論速度更容易受到記憶體頻寬的影響(memory bound),也就是記憶體讀寫效率問題,這是因為大模型由於參數量巨大、訪存量遠超記憶體頻寬容量,意味著模型的權重的讀寫速度跟不上硬體對於運算元的運算強度,導致算力資源無法得到充分發揮,進而影響性能。

memory bound與compute bound比較 memory bound與compute bound比較

低位元量化技術

低位元量化技術是指將模型參數從fp32/fp16壓縮到更低的位元位寬表達,在不影響模型輸出準確性和參數量的情況下,降低模型體積,從而減少緩衝記憶體對於資料讀寫的壓力,提升推論性能。由於大模型中單個layer上的權重體積往往要遠大於該layer的輸入資料(activation),因此針對大模型的量化技術往往只會針對關鍵的權重參數進行量化(WeightOnly),而不對輸入資料進行量化,在到達理想的壓縮比的同時,盡可能保證輸出結果,實現最高的量化「性價比」。

本文為會員限定文章

立即加入會員! 全站文章無限看~

                               

已經是會員? 按此登入

只需不到短短一分鐘...

輸入您的信箱與ID註冊即可享有一切福利!

會員福利
1

免費電子報

2

會員搶先看

3

主題訂閱

4

好文收藏

楊亦誠

Author: 楊亦誠

現任英特爾 AI 軟體工程師

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *