【Arm的AI世界】縮小Edge AI的技能落差

Posted By Parag Beeraka on 3 月 29, 2024 in Arm, Arm的AI世界, Edge AI, Edge AI開發地圖, Vela Compiler, 專欄, 產業趨勢 | 0 comments

作者: Parag Beeraka，Arm 物聯網事業部行銷資深總監

人工智慧(AI)和機器學習(ML)迅速成長，大力推動邊緣裝置和嵌入式系統的創新。不過想在資源受限的硬體上成功部署機器學習模型，需要具備邊緣人工智慧(Edge AI)的專業知識，範圍涵蓋資料科學、機器學習，以及專門的嵌入式工程領域。嵌入式設計數十年來提供大量的解決方案，以簡易的微控制器為基礎建構而成，並使用自家開發或商用的即時作業系統；在某種程度上，即將面對排山倒海而來的AI，將令人難以負荷。

希望運用新型AI和機器學習工作負載的邊緣AI開發團隊，大部分都面對技能落差的問題，導致團隊沒有足夠能力最佳化及加速裝置內的AI。有些公司在內部建立AI/ML團隊，以因應前述的技能落差的問題；其他公司則聘請專門的ML領導團隊或是併購新創公司，好讓自己的專業知識突飛猛進。

不過雖然有所進展，但隨著ML方法及模型更為複雜，標準也持續提升。舉例來說，ChatGPT 或 Gemini 有多項衍生功能，未來很快就會在小型的嵌入式控制器及邊緣 AI上執行，在真實世界應用中提供更出色的效益。此外，上市時程壓力也相當龐大，一般可能需要好幾年的時間，才能讓嵌入式工程團隊具備 MLOps 的「完整技能」，而且到時候還是得繼續學習，因為位在邊緣的 MLOps 會持續演進發展。

邊緣AI落差

所以有哪些關鍵落差持續存在？以下是最主要的三項關鍵領域：

資料管理(Data management)；
模型最佳化(Model Optimization)；
高效率推論(Efficient Inference)。

Arm 是關鍵技術的提供者，協助AI和ML解決方案成長茁壯，並持續致力於減輕工程師及開發人員的工作難度，以便以更高的效率實現AI夢想。

以下讓我們深入探討各個領域的挑戰。

資料管理

有效管理資料是開發及部署ML模型的關鍵所在，不過也有挑戰需要克服。例如如何由感測器收集正確無偏差的資料、準確一致地標示資料用於訓練，以及確保資料的隱私和安全性。

在傳統的嵌入式設計領域中，如果要維護工具、基礎設施和技能，打造強健的端對端ML資料管理，就使嵌入式團隊面對更多挑戰。

舉例來說，鎖定硬體目標及硬體原型設計，一直都是繁雜緩慢的流程。Arm已採取行動來簡化這部分的設計流程及加速部署，透過Arm虛擬硬體(AVH)這項雲端服務，提供功能正確的Arm架構晶片模型，協助軟體開發人員模擬Arm架構物聯網裝置的行為，無需使用實體硬體。

接著要探討ML應用資料輸入的複雜度問題，例如感測器的音訊及其他輸入形式。感測器性質各不相同，重要的是要以標準為重心，協助簡化這類資料集的處理作業。

Arm 為感測器資料提供新型的同步資料串流(Synchronous Data Streaming，SDS)框架，因應模型開發所需的標準化資料收集、標示及分布。這項結構能在開發期間由目標硬體擷取實體感測器/音訊資料串流，例如 MEMS 陀螺儀或麥克風。

框架提供 Python 架構的公用程式，用於播放、視覺化及分析所擷取的資料串流。SDS 播放結合 AVH 可在模擬模型自動測試演算法，對持續整合/持續部署(CI/CD)流程而言相當有幫助。TDK Qeexo 與 Arm 密切合作，在本身的ML平台 Qeexo AutoML 新增支援同步資料串流 (SDS) 框架。

模型最佳化

AI發展過程是從使用場景開始，並從使用場景取得資料。一旦決定了使用場景和資料集，就可使用各種方法訓練複雜模型。這除了需要存取大型資料集，也需要龐大的運算資源。因此「最佳化」就扮演了關鍵角色，協助在功耗受限的裝置上執行ML工作負載。最佳化有許多形式。ML模型大小可透過多項技術加以縮減，例如修整、量化和知識提取，以便降低儲存和記憶體需求。

一個最佳化範例就是Arm與Nvidia合作的TAO；TAO 是低程式碼的AI工具組，以TensorFlow及 PyTorch 為基礎建構，能夠消除AI模型及深度學習框架的複雜度，進而簡化及加速模型訓練流程。

此外，Arm 模型最佳化工具組是由 Arm 龐大的全球生態系，以基礎硬體技術和系統設計需求的深厚知識建構而成，是協助開發團隊為最佳化寶貴資源達到最理想的狀態。

高效率推論

邊緣裝置的高效率推論，可說是真正的考驗所在。由於這類裝置的資源通常受限，因此在邊緣部署模型時必須非常謹慎。雖然CPU能夠處理部分工作負載，但新興的專業工作負載通常需要異質化運算解決方案，以提供效能及處理效率。許多嵌入式SoC 確實提供各種加速器用於硬體加速，例如為ML工作負載最佳化的數位訊號處理(DSP)、TPU及NPU。

因此，若要使用各種不同的加速器，在嵌入式裝置高效執行ML工作負載，就需要使用Arm Vela等編譯器或CMSIS-NN等軟體函式庫進行大量調校。開發人員可利用 Arm Vela 編譯器，將適合微控制器神經網路模型的TensorFlow Lite編譯為最佳化版本，在配備Arm Ethos-U NPU (neural processing unit，神經處理單元)的嵌入式系統執行，協助加速各種ML工作負載。

Vela 編譯器可讓使用者重新編寫Vela組態檔，以便最佳化Ethos-U嵌入式系統的各項屬性，例如記憶體延遲及頻寬。而 Edge Impulse、Nota.AI、Qeexo 及 Plumerai 等 Arm 生態系合作夥伴，則將 Vela 編譯器整合至各自的工具流程中，讓客戶能夠輕鬆使用 Arm 架構平台搭配 Ethos-U 加速器。