【啟動AI Maker世代 】2024 MAI 開發者社群大會(5/16-17)
|

【Arm的AI世界】縮小Edge AI的技能落差

   

作者: Parag Beeraka,Arm 物聯網事業部行銷資深總監 

人工智慧(AI)和機器學習(ML)迅速成長,大力推動邊緣裝置和嵌入式系統的創新。不過想在資源受限的硬體上成功部署機器學習模型,需要具備邊緣人工智慧(Edge AI)的專業知識,範圍涵蓋資料科學、機器學習,以及專門的嵌入式工程領域。嵌入式設計數十年來提供大量的解決方案,以簡易的微控制器為基礎建構而成,並使用自家開發或商用的即時作業系統;在某種程度上,即將面對排山倒海而來的AI,將令人難以負荷。

希望運用新型AI和機器學習工作負載的邊緣AI開發團隊,大部分都面對技能落差的問題,導致團隊沒有足夠能力最佳化及加速裝置內的AI。有些公司在內部建立AI/ML團隊,以因應前述的技能落差的問題;其他公司則聘請專門的ML領導團隊或是併購新創公司,好讓自己的專業知識突飛猛進。

不過雖然有所進展,但隨著ML方法及模型更為複雜,標準也持續提升。舉例來說,ChatGPT 或 Gemini 有多項衍生功能,未來很快就會在小型的嵌入式控制器及邊緣 AI上執行,在真實世界應用中提供更出色的效益。此外,上市時程壓力也相當龐大,一般可能需要好幾年的時間,才能讓嵌入式工程團隊具備 MLOps 的「完整技能」,而且到時候還是得繼續學習,因為位在邊緣的 MLOps 會持續演進發展。

邊緣AI落差

所以有哪些關鍵落差持續存在?以下是最主要的三項關鍵領域:

  • 資料管理(Data management)
  • 模型最佳化(Model Optimization)
  • 高效率推論(Efficient Inference)

Arm 是關鍵技術的提供者,協助AI和ML解決方案成長茁壯,並持續致力於減輕工程師及開發人員的工作難度,以便以更高的效率實現AI夢想。

以下讓我們深入探討各個領域的挑戰。

資料管理

有效管理資料是開發及部署ML模型的關鍵所在,不過也有挑戰需要克服。例如如何由感測器收集正確無偏差的資料、準確一致地標示資料用於訓練,以及確保資料的隱私和安全性。

在傳統的嵌入式設計領域中,如果要維護工具、基礎設施和技能,打造強健的端對端ML資料管理,就使嵌入式團隊面對更多挑戰。

舉例來說,鎖定硬體目標及硬體原型設計,一直都是繁雜緩慢的流程。Arm已採取行動來簡化這部分的設計流程及加速部署,透過Arm虛擬硬體(AVH)這項雲端服務,提供功能正確的Arm架構晶片模型,協助軟體開發人員模擬Arm架構物聯網裝置的行為,無需使用實體硬體。

接著要探討ML應用資料輸入的複雜度問題,例如感測器的音訊及其他輸入形式。感測器性質各不相同,重要的是要以標準為重心,協助簡化這類資料集的處理作業。

Arm 為感測器資料提供新型的同步資料串流(Synchronous Data Streaming,SDS)框架,因應模型開發所需的標準化資料收集、標示及分布。這項結構能在開發期間由目標硬體擷取實體感測器/音訊資料串流,例如 MEMS 陀螺儀或麥克風。

框架提供 Python 架構的公用程式,用於播放、視覺化及分析所擷取的資料串流。SDS 播放結合 AVH 可在模擬模型自動測試演算法,對持續整合/持續部署(CI/CD)流程而言相當有幫助。TDK Qeexo 與 Arm 密切合作,在本身的ML平台 Qeexo AutoML 新增支援同步資料串流 (SDS) 框架。

模型最佳化

AI發展過程是從使用場景開始,並從使用場景取得資料。一旦決定了使用場景和資料集,就可使用各種方法訓練複雜模型。這除了需要存取大型資料集,也需要龐大的運算資源。因此「最佳化」就扮演了關鍵角色,協助在功耗受限的裝置上執行ML工作負載。最佳化有許多形式。ML模型大小可透過多項技術加以縮減,例如修整、量化和知識提取,以便降低儲存和記憶體需求。

一個最佳化範例就是Arm與Nvidia合作的TAO;TAO 是低程式碼的AI工具組,以TensorFlow及 PyTorch 為基礎建構,能夠消除AI模型及深度學習框架的複雜度,進而簡化及加速模型訓練流程。

此外,Arm 模型最佳化工具組是由 Arm 龐大的全球生態系,以基礎硬體技術和系統設計需求的深厚知識建構而成,是協助開發團隊為最佳化寶貴資源達到最理想的狀態。

高效率推論

邊緣裝置的高效率推論,可說是真正的考驗所在。由於這類裝置的資源通常受限,因此在邊緣部署模型時必須非常謹慎。雖然CPU能夠處理部分工作負載,但新興的專業工作負載通常需要異質化運算解決方案,以提供效能及處理效率。許多嵌入式SoC 確實提供各種加速器用於硬體加速,例如為ML工作負載最佳化的數位訊號處理(DSP)、TPU及NPU。

因此,若要使用各種不同的加速器,在嵌入式裝置高效執行ML工作負載,就需要使用Arm Vela等編譯器或CMSIS-NN等軟體函式庫進行大量調校。開發人員可利用 Arm Vela 編譯器,將適合微控制器神經網路模型的TensorFlow Lite編譯為最佳化版本,在配備Arm Ethos-U NPU (neural processing unit,神經處理單元)的嵌入式系統執行,協助加速各種ML工作負載。

Vela 編譯器可讓使用者重新編寫Vela組態檔,以便最佳化Ethos-U嵌入式系統的各項屬性,例如記憶體延遲及頻寬。而 Edge Impulse、Nota.AI、Qeexo 及 Plumerai 等 Arm 生態系合作夥伴,則將 Vela 編譯器整合至各自的工具流程中,讓客戶能夠輕鬆使用 Arm 架構平台搭配 Ethos-U 加速器。

提升技能勢在必行

對傳統的嵌入式設計和開發團隊而言,如果要維護工具、基礎設施和技能,打造強健的端對端ML資料管理,就將面臨更多的技能挑戰。

縮短技能落差需要透過一致的策略和統一的工具鏈,以結合硬體廠商、AI/ML專家和企業軟體供應商的長處。Arm 的產品、工具、資源及生態系可做為基礎,協助工程師具備更進階的技能,開創AI使用場景以帶動變革。

(參考原文:Bridge the Skills Gap in Edge AI中文版校閱者為Arm 物聯網事業部亞太區IoT市場資深經理黃晏祥;責編:Judith Cheng)

 

Parag Beeraka
Parag Beeraka

Author: Parag Beeraka

Parag Beeraka現任Arm物聯網事業部市場行銷資深總監,在Arm負責為物聯網業務的不同領域訂定進入市場策略,也專注於機器學習和智慧視覺等新興技術在多個領域的應用。

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *