針對大語言模型(LLM)在部署過程中的性能需求,低位元量化技術一直是優化效果最佳的方案之一,本文將探討低位元量化技術如何幫助LLM提升性能,以及新版OpenVINO 對於低位元量化技術的支援。
大模型性能瓶頸
相比運算量的增加,大模型推論速度更容易受到記憶體頻寬的影響(memory bound),也就是記憶體讀寫效率問題,這是因為大模型由於參數量巨大、訪存量遠超記憶體頻寬容量,意味著模型的權重的讀寫速度跟不上硬體對於運算元的運算強度,導致算力資源無法得到充分發揮,進而影響性能。
memory bound與compute bound比較
低位元量化技術
低位元量化技術是指將模型參數從fp32/fp16壓縮到更低的位元位寬表達,在不影響模型輸出準確性和參數量的情況下,降低模型體積,從而減少緩衝記憶體對於資料讀寫的壓力,提升推論性能。由於大模型中單個layer上的權重體積往往要遠大於該layer的輸入資料(activation),因此針對大模型的量化技術往往只會針對關鍵的權重參數進行量化(WeightOnly),而不對輸入資料進行量化,在到達理想的壓縮比的同時,盡可能保證輸出結果,實現最高的量化「性價比」。
只需不到短短一分鐘...
輸入您的信箱與ID註冊即可享有一切福利!
會員福利
1
免費電子報
2
會員搶先看
3
主題訂閱
4
好文收藏