|

打造健全Edge AI生態系 Arm扮演開發者堅實後盾

   

自2022年底ChatGPT出世掀起全球人工智慧(AI)熱潮,如何將AI應用部署於邊緣裝置──也就是「邊緣AI」(Edge AI)──是這兩年電子開發社群最關注的議題之一。然而這個充滿各種「多樣化」的領域,直到已是2025年的現在,似乎仍呈現一種渾沌初開的…紛亂?儘管市場上已有琳瑯滿目的Edge AI軟硬體解決方案選項,相關技術資源亦相當豐富,即使是資深開發者,還是得費不少工夫才能搞定在不同平台之間的應用部署或轉移;而因為技術變化速度太快、資訊爆炸,雖然人人看好Edge AI發展潛力,卻也還在摸索方向與商機。

就在不久前,Arm正式發表第一個專為物聯網(IoT)裝置打造的Armv9架構平台,結合全新的Cortex-A320 CPU核心,以及在2024年4月發表的最新一代Ethos-U85 NPU,以支援超過10億參數的邊緣端AI模型,聚焦當紅的生成式AI與代理式AI(Agentic AI)相關應用;而這是否意味著Edge AI市場終於將進一步擴大版圖,讓全球數量超過百億的IoT裝置都能更容易冠上一個「A」字母,實現真正的AI無所不在?

不只是MCU 未來IoT是更高效能的邊緣AI平台

對此,Arm物聯網事業部亞太區資深經理黃晏祥接受《MakerPRO》專訪時表示:「IoT會朝向高效能(High performance)、更AI 化的角度來發展,需要更高階的產品,為了生態系的連貫性(Ecosystem consistent),除了Cortex-A35、Cortex-A53等(Armv8架構)Cortex-A系列核心以外,還需要一個有超級效率、基於Armv9架構的CPU,完整化整個產品線;」他補充指出,未來會有更多訓練好的AI模型在邊緣端運作,同樣Armv9架構的Cortex-X925是高效能的大核心,主要負責高階推論任務,而Cortex-A320進一步將這個產品系列完整化,「我們預期邊緣運算不只是單純MCU,更高的算力一定會在邊緣發生。」

黃晏祥解釋,儘管目前業界沒有標準定義,Arm將邊緣端的AI應用細分為「End Point AI」與「Edge AI」,後者涵蓋高階終端裝置與高效能運算(High Performance Computing);這樣的劃分主要是為了突顯MCU與MPU市場的差異,不過在實際應用上還是有一定的彈性;「Cortex-M based MCU要跑大型語言模型甚至小型語言模型還是有其限制,跑出來的token 數會與實際運用需求有差距,Cortex-A320的產品定位就是去填補這一塊空缺。」

Arm主任應用工程師林宜均補充指出,AI的演進已經從需要大算力GPU的模型訓練,轉向更多的推論,而這也是AI應用落地到大眾日常生活的關鍵;「像PyTorch推出ExecuTorch,基本上就是推論專版、在小裝置上面跑的PyTorch,因為未來趨勢是朝推論、或在小裝置上面運作,因此IoT也會逐漸強調CPU的AI效能。為此Arm將之前在終端產品(Client)應用推出的解決方案轉移過來,讓整個IoT產品陣容從高階的Cortex-X系列到Cortex-A7xx、Cortex-A5xx、Cortex-A3xx,都有完整生態系與軟體支援,以異質化運算提供靈活選擇,無論是低功耗、高效能或不同算力需求,都有對應的解決方案。」

Armv9 Cortex-A:為IoT應用提供更具彈性的運算架構選項

「Arm內部以往一直在討論究竟要用多大的NPU,因為在早期工具鏈還不完整時,確實需要NPU來執行AI運算;但現在Armv9.2的CPU核心可以取代很多NPU的工作,尤其在IoT 領域;」黃晏祥表示,IoT應用場景太多樣化,當CPU矩陣運算越來越強,就可以取代部分的 NPU,成為更具彈性的選擇:「在大多數IoT應用中,AI推論的運算時間可能不到1/10、甚至1/100,因此投入額外資源與功耗來搭載NPU未必划算。這是Arm未來方向,也是越來越強調CPU的AI效能原因。」

林宜均指出,在Arm去年的Tech Symposia曾展示一款以類似手機的裝置執行AI任務,可以在上面問問題、產生故事,都是直接在CPU運作;「這顯示隨著Cortex系列處理器的效能提升,CPU已經能夠處理部分AI運算,尤其是在記憶體存取優勢(L1、L2 Cache)下,簡單 AI任務在CPU上的運作速度可能更快。」不過他也強調,在設計考量上還是要以AI任務的工作負載為主,如果需要比較大幅度的運算就是NPU跑,因此選型相當重要:「異質運算的概念,就是確保合適的工作負載在合適的型號上執行,在所有的裝置都一樣,特別是IoT需要根據應用場景選擇在功耗、效能表現上最適合的方案。」

Arm具備靈活的AI平台架構設計,可依應用需求搭配不同處理單元,例如 Cortex-M + NPU、Cortex-A + NPU、Cortex-A + Cortex-M + NPU,讓產品開發人員擁有選擇運算架構的更高彈性。而Arm在不同平台也都能提供相對應的驅動程式(driver) 或設計;例如在Cortex-A可以直接在Linux以相對應的driver呼叫NPU,在Cortex-M也有相對應的做法、可能透過Vela編譯器,各種做法都可以支援。林宜均表示,未來Cortex-M的部分會統合於CMSIS;Cortex-A的部分會結合Arm Compute Library,或者 ArmNN,再透過Kleidi AI來做最佳化,所有東西未來就會都整合在這些軟體裡面,讓開發者可以更快速的運用。

三管齊下 推動邊緣AI軟體與生態系的健全化

針對目前邊緣AI開發平台可說是各家MCU/SoC供應商「山頭林立」的景況,黃晏祥則表示,Arm以KleidiAI進行工具鏈(Toolchain)的統一化是關鍵發展方向,透過及生態系建構、推動標準化,將統整從AI伺服器到IoT的應用部署,推動邊緣AI與IoT裝置更健全發展。他指出,根據實測數據,使用Kleidi AI可將整體效能提升達70%,此外能大幅降低開發人員在不同工具轉換上的時間成本,並解決以往在實作過程中遇到的挑戰;而因為異質運算與工作負載分配需要軟體的有力支援,Arm致力於讓整個軟體開發環境更加完整,讓開發者可靈活分配AI工作負載至CPU或是Ethos NPU。

林宜均補充,Arm透過硬體、軟體最佳化與框架合作,三管齊下助力推動邊緣AI的健全化:在硬體部分,Arm的IP逐步將最新、最好的技術,從終端產品、基礎設施(Infra)帶到IoT,例如在Armv8.1架構的Cortex M52/M55/M85加入Helium,並持續推出新一代NPU──從 Ethos-U55、Ethos-U65進展到Ethos-U85──不只可支援CNN,也可運作Transformer模型,擴展未來AI應用的可能性;而Armv9架構因為可支援SVE2 (Scalable Vector Extension 2),可提升CPU的AI運算能力,「再加上Arm近年來與PyTorch等AI框架深度合作,讓這些框架能夠直接利用Arm指令集進行最佳化,讓AI開發人員在使用現有工具設計模型時,就能發揮Arm架構的最大優勢。」

在Kleidi AI的部分,林宜均說明,這個函式庫是比較底層的軟體核心(Micro-kernels),其願景是直接與關鍵AI框架整合,包括MediaPipe (透過 XNNPACK)、LLAMA.ccp、PyTorch (透過ExecuTorch),以及TensorFlow Lite (透過XNNPACK),透過提供具彈性的各種核心組合,協助在框架上強化AI;「使用者不會看到Kleidi AI這一層,但都能享受到整合KleidiAI的好處,因為它能讓在不同的Arm核心上的硬體取得最佳運算效能。」

面對邊緣AI發展初期工具鏈分散、不同平台壁壘分明的情況,Arm正投入大量資源,致力於串聯硬體、軟體與生態系,讓 AI 開發者在從雲端到邊緣的整體開發流程中更為順暢。林宜均指出,Arm持續強化與開發人員的連結,現在新的工具鏈已跟框架廠商協調,未來開發人員可使用同樣的框架作業,減少適應成本。在Cortex-M部分,Arm持續強化CMSIS標準,擴展至CMSIS-NN和CMSIS-CV,並加強底層driver支援;還有Kleidi與Kleidi CV,後者剛與 OpenCV進行整合,以提供效能升級。

注重教育訓練與對開發者社群的支援

在對開發者的技術支援方面,林宜均表示,AI開發人員在開發過程中,通常需要範例程式碼(Example Code)來快速上手,為此Arm透過ML-zoo或ML Embedded Evaluation Kit等網站,提供更多參考設計供開發者使用。未來Arm也會與包括IC業者等產業生態系夥伴合作提供更多開源檔案,更進一步健全函式庫以降低開發門檻。

此外Arm近年來在虛擬硬體環境與平台──如Arm Virtual Hardware(AVH)和Fast Models Fixed Virtual Platform(FVP)──投入大量資源開發,將熱門的開發套件、Arm架構處理器和雲端系統進行虛擬化,無需等待硬體,並省去建置和設定開發板以進行測試的複雜性,可加速軟體開發並擴大規模,也能實現DevOps、MLOps等靈活的軟體開發流程。

除了注重教育訓練,在自家部落格或社群平台提供技術文章(包括與MakerPRO合作的專欄)、教學影片等,Arm透過推動開發人員計畫,以及競賽、工作坊等活動串聯開發者、學界與產業界,期望透過更多開源貢獻與社群活化,促進本土AI生態系成形。(在即將於5月下旬舉行的年度台北國際電腦展Computex,Arm除了有執行長Rene Haas將發表專題演說,也將舉辦一系列工作坊,精彩可期!)

黃晏祥總結指出,台灣產業界一直以硬體為強項,軟體開發工程師的比例相對較小,但現在AI當紅,越來越多年輕一代選擇投入軟體領域,應該會逐漸改變軟硬體開發者比例失衡的情況;「我們期待台灣開發環境可以更健全,未來Arm也將持續優化,推動AI能真正走入日常與產業應用的每一個角落。」

 

 

Judith Cheng

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Cheng Judith

Author: Judith Cheng

20年經驗半導體/電子技術領域長期觀察員與報導者,見證科技社群持續成長茁壯、Maker/工程師們以創新改變世界!

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *