|

Arm運算平台助力Llama 3.2 LLM實現AI推論加速與擴展

   

各種大型語言模型(LLM)版本不斷推陳出新。要充分發揮AI的潛力、掌握新機,需要實現LLM從雲到端的廣泛部署,其中也帶動了對運算和能源需求的大幅成長。受惠於Arm 的持續投資及與各新型LLM的合作, 於Arm CPU執行AI應用的優勢在生態系中脫穎而出,使Arm成為AI 推論開發人員的首選平台。為此,Arm與Meta展開緊密合作,在Arm CPU上啟用新的Llama 3.2 LLM,整合開源創新與 Arm 運算平台的優勢,為使用者帶來全新、快速的AI 體驗。

小型 LLM (如Llama 3.2 1B和3B)能夠支援以文字為基礎的基礎生成式AI工作負載,對於大規模AI推論的實現相當重要。透過Arm CPU最佳化核心在Arm技術驅動的行動裝置上執行新的Llama 3.2 3B LLM,可讓提示詞(Prompt)處理速度提高五倍,詞元(token)生成速度提高三倍,在生成階段實現每秒19.92個詞元。這將直接減少在裝置上處理AI工作負載的延遲,提升使用者體驗。此外,當邊緣端能處理的AI工作負載越多,往返雲端傳輸資料所節省的電量就越多,進而節省了能源和成本。

除了在邊緣端運作小型模型,更大的模型(如Llama 3.2 11B和90B)也能在雲端運作。11B和90B模型非常適合雲端基於CPU的推論工作負載,可生成文字和影像,如同在Arm Neoverse V2上的測試結果顯示。在基於Arm架構的AWS Graviton4上運作11B的影像和文字模型,可在生成階段實現每秒29.3個詞元的表現,遠遠超出人類大約每秒閱讀五個詞元的速度。

能公開取得各種新版本LLM (如Llama 3.2)相當關鍵。開源創新正以極為快速的速度發展,在之前的版本中,開源社群在不到24小時的時間內便能在Arm上部署並運行新的 LLM。Arm將透過Arm Kleidi進一步支援軟體社群,讓整個AI技術堆疊能夠充分發揮此一經過最佳化的 CPU 效能。Kleidi可在任何AI框架上釋放Arm Cortex和Neoverse CPU的AI功能和效能,無需應用程式開發人員進行額外的整合工作。

透過最近的Kleidi與PyTorch整合以及正在推進的與 ExecuTorch整合,Arm 正在為基於 Arm CPU 的開發人員提供從雲到端的無縫AI效能。受惠於Kleidi與PyTorch的整合,在基於Arm架構的AWS Graviton處理器上運作Llama 3 LLM的詞元,首次回應時間加快了2.5倍。同時,在行動裝置上,透過KleidiAI函式庫的協助,使用llama.cpp函式庫在新的Arm Cortex-X925 CPU上執行Llama 3的詞元首次回應時間與參考實作相比加快了190%。

Arm與Meta的合作彙聚了Arm運算平台的靈活性、普及性和AI功能,以及 Meta等產業領導者的技術專長,共同釋放AI被廣泛應用的新機會。無論是利用裝置端LLM滿足使用者的個性化需求,如根據使用者所在的位置、日程和偏好來執行任務,還是透過企業級應用來最佳化工作效率,讓使用者更專注於創造價值的任務,Arm技術的整合都為未來奠定了基礎。裝置將不再只是命令和控制工具,更能在提升使用者整體體驗方面發揮積極的作用。

 

MakerPRO編輯部
MakerPRO編輯部

Author: MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體,不論是趨勢分析與評論,或創新實作文章,在華文創新創業媒體領域都具有重要的影響力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *