【白皮書導讀】Arm Ethos-U NPU的Vela Compiler開發環境及流程

Posted By owenou on 11 月 7, 2023 in ALIF, Arm, Edge AI, Edge AI開發地圖, Edge AI開發環境, TensorFlow, 技術新訊 | 0 comments

作者：歐敏銓

Edge AI的推論應用已逐漸從工業電腦向下推到嵌入式系統，然而，在MCU/MPU為運算核心的架構中，如何滿足AI/ML的推論運算需求？廠商們提出了各種方案，如客製化AI加速器SOC、採用FPGA，以及整合Arm的Ethos-U 神經處理單元（NPU）等，其中整合NPU的作法似乎得到較高的市場接受度。

以AI晶片新創ALIF開發的4個家族系列（E1、E3、E5、E7）為例，下圖說明了這個家族的運算核心組合，透過整合不同類型及數量的運算核心，即強調即時性的MCU核心（Cortex-M55）、微型NPU AI/ML加速器（Ethos-U55）及應用MPU核心（Cortex-A32），來滿足輕量、中量到大量運算需求的不同應用。

ALIF的AI晶片系列與應用領域；資料來源：ALIF

如果你是嵌入式系統的開發者，下一個要學習的課題，應該就是怎麼善用上圖中的NPU，以滿足Edge AI應用的低功耗、高效率需求。以下摘要Arm幾篇針對Arm micro NPU，即Ethos-U（U55、U65）的技術文，簡介一下Vela Compiler開發環境與流程，希望對大家能有幫助。

NPU模型編譯工具 – Vela Compiler

Ethos -U NPU 是一款小型且節能的AI/ML運算處理核心，用於減少運行機器學習 (ML) 神經網路 (NN) 所需的推理時間和記憶體需求。在硬體配置上，它不會單獨存在，而會與Cortex-M核心、記憶體及周邊整合在一起，配置的方式很多，架構示意圖如下：

Ethos-U與Cortex-M及記憶體、週邊的互連性示意圖（資料來源）

要在 Ethos-U 上部署神經網路 (NN) 模型，您需要做的第一步是使用Vela Compiler來編譯準備好的模型。Vela 是一個開源 Python 工具，可在 Linux、Mac OS 和 Microsoft Windows 10 作業系統上運作。它可以將訓練好的神經網路模型優化為可以在包含 Ethos-U NPU 的嵌入式系統上運行的模型版本，其開發流程如下：

Ethos-U運用Vela Compiler的開發流程圖（資料來源）

以下是開發流程中的3個重要步驟：

1. 準備您的神經網路模型

要透過Ethos-U microNPU 加速，採用的模型必須先量化為 8 位元或 16 位元格式。如果您手邊已經有自己的預訓練模型，目前有許多現成工具可用來轉換及量化模型，例如TensorFlow Model Optimization toolkit，此工具包提供了與TensorFlow Lite相容的量化（quantization）、剪枝（pruning）和聚類（clustering）等最佳化技術。基於最佳化技術，可以降低模型的複雜性和大小，從而減少記憶體使用、儲存大小和下載大小。

如果您手邊沒有模型，則可在Arm ML Zoo和TensorFlow Hub找到各種 .tflite 格式的 ML 模型。您可以直接下載並使用它們作為您自己的模型。

註：TensorFlow Lite 是一個開源深度學習框架，支援設備上機器學習。它允許您將預先訓練的 TensorFlow 模型轉換為 TensorFlow Lite 平面緩衝檔案 (.tflite)，該檔案針對速度和儲存進行了最佳化。