隨著人工智慧(AI) 演進,人們對使用小語言模型(SLM)在嵌入式裝置上執行AI工作負載的興趣越來越高。
以下的展示說明了終端AI在物聯網和邊緣運算領域的發展潛力。在此展示中,當使用者輸入一個句子後,系統會以該句子為基礎生成一篇兒童故事。這項展示是受到微軟(Microsoft)的《Tiny Stories》論文和Andrej Karpathy的 TinyLlama2 專案啟發,TinyLlama2 專案使用了 2,100 萬個故事來訓練小語言模型生成內容。
以上的展示搭載了Arm Ethos-U85 NPU,並在嵌入式硬體上運作小語言模型。儘管大語言模型(LLM)更廣為人知,但由於小語言模型能夠以更少資源、較低成本提供出色的效能,而且訓練起來也更為簡易且成本更低,因此受到越來越多的關注。
在嵌入式硬體實現基於Transformer的小語言模型
我們的展示說明了 Ethos-U85做為一個小型低功耗平台在運作生成式AI方面的能力,並突顯了小語言模型在特定領域中的出色表現。TinyLlama2模型相較Meta等公司的大模型更為簡化,很適合用於展示Ethos-U85的 AI 效能,可說是終端 AI 工作負載的理想之選。
為開發此項展示,我們進行了大量建模工作,包括創建一個全整數的 INT8 (和INT8x16) TinyLlama2 模型,並將其轉換為符合Ethos-U85限制的固定形狀TensorFlow Lite格式。
我們的量化方法說明,全整數語言模型在取得高準確度和輸出品質之間獲得良好平衡。透過量化激勵函數、正規化函數和矩陣乘法,我們無需進行浮點運算。由於浮點運算在晶片面積和能源消耗方面成本較高,這對於資源受限的嵌入式裝置來說是一個關鍵考量。
Ethos-U85 在FPGA平台上以 32MHz 的頻率運作語言模型,其文字生成速度可達到每秒7.5 到 8 個詞元 (token),與人類的閱讀速度相當,同時僅消耗四分之一的運算資源。在實際應用的系統級晶片(SoC)上,效能最多可提高十倍,進而顯著提升了邊緣端AI的處理速度和效率。
兒童故事生成的特色採用了Llama2的開源版本,並結合了Ethos NPU後端,在TFLite Micro上運作展示。大部分推理邏輯以C++ 語言在應用層編寫,並透過最佳化上下文篇幅內容,提高了故事的連貫性,確保AI能夠流暢地講述故事。
由於硬體限制,團隊需要對Llama2模型進行調整,以確保其在Ethos-U85 NPU上高效率運作,這需要對效能和準確性進行仔細考量。INT8和INT16混合量化技術展示了全整數模型的潛力,這有利於AI社群更積極地針對邊緣端裝置最佳化生成式模型,並推動神經網路在例如Ethos-U85等高效率平台上的廣泛應用。
展現Arm Ethos-U85 卓越效能
Ethos-U85的乘法累加(MAC)單元可以從128個擴展至2,048個,與前一代產品Ethos-U65相較,其效率提高了20%。另外相較上一代產品,Ethos-U85的一個顯著特點是能夠原生支援Transformer網路。
Ethos-U85 能支援使用前代 Ethos-U NPU 的合作夥伴實現無縫遷移,並充分運用其在基於 Arm架構的機器學習(ML)工具上的既有投資。憑藉其卓越效率和出色效能,Ethos-U85 正受到越來越多開發人員的青睞。
如果在晶片上採用2,048個MAC配置,Ethos-U85可以實現4 TOPS的效能。在此展示中,我們使用了較小的配置,也就是在FPGA平台上採用512個MAC,並以32MHz的頻率運作具有1,500萬個參數的TinyLlama2小語言模型。
此一能力突顯了將AI直接嵌入裝置的可能性。儘管記憶體有限 (320 KB SRAM 用於快取,32 MB 用於儲存),Ethos-U85仍能高效率地處理此類工作負載,為小語言模型和其他AI應用在深度嵌入式系統中的廣泛應用奠定基礎。
將生成式AI導入嵌入式裝置
開發者需要更加先進的工具來因應邊緣端AI的複雜性。Arm透過推出Ethos-U85,並支援基於Transformer的模型,致力於滿足此一需求。隨著邊緣端AI在嵌入式應用中的重要性日益增加,Ethos-U85正在推動從語言模型到先進視覺任務等各種新型應用場景的實現。
Ethos-U85 NPU提供了先進的創新解決方案所需的卓越效能和出色效率。一如《Tiny Storie》論文中所言,我們的展示說明了將生成式AI導入嵌入式裝置的重要進展,並突顯了在Arm平台上部署小語言模型的便捷可行。
Arm正為邊緣端AI在廣泛應用領域帶來全新機會,Ethos-U85也因此成為推動新一代智慧、低功耗裝置發展的關鍵動力。
(參考原文: Arm Ethos-U85 NPU: Unlocking Generative AI at the Edge with Small Language Models;本文中文版校閱者為Arm 主任應用工程師林政男)
- 【Arm的AI世界】運用小語言模型在邊緣端實現生成式AI - 2025/02/13
- 【Arm的AI世界】供機器學習邊緣裝置使用的軟體、工具與生態系 - 2025/01/08
- 【Arm的AI世界】以TinyML為基礎的高效率嵌入式電腦視覺 - 2024/12/05