TinyML效能基準測試：MLPerf Inference:Tiny 0.7版觀察

Posted By 陸向陽 on 7 月 4, 2022 in Arm, TinyML, 單元, 陸向陽 | 0 comments

作者：陸向陽

MLCommons針對各種人工智慧效能訂立測試基準，包含訓練的基準、推論的基準，並針對不同情境再進行細分，例如訓練又分成一般訓練或是高效能運算的訓練，推論也分成資料中心、邊緣運算、行動用、TinyML用，對我們創客而言，當然首要關注的是TinyML的基準測試，即MLPerf。

此前MLCommons公佈過一次MLPerf 0.5版的測試，約在去年六月，今年四月則再次更新，稱為MLPerf 0.7版，雖然一樣是非正式版（一般認定1.0版為正式版），但參與測試的軟硬體陣容已大幅擴充，值得觀察，本文以下即對此進行更多討論。

業者參與陣容大幅擴充

首先是參與者更多了，0.5版僅6組測試結果，0.7版增至26組；0.5版參與的測試者有些未持續在0.7版出現，如美國Latent AI公司、深圳鵬城實驗室等，但也有持續參與的，例如美國Syntiant公司、Fast Machine Learning Lab/FastML Lab（以軟體技術參與測試）。

另外有許多MCU相關大廠開始從0.7版加入測試，例如日本瑞薩（Renesas）、歐洲的意法半導體（STMicro）、美國的Silicon Labs/SiLabs，我國的晶新科技（Andes），以及中國大陸的阿里巴巴（Alibabab）等均參與。此外還有英國Plumer公司，同樣以軟體技術為主參與測試。

各業者送測的組態配置

我國晶心科技送測了3組，分別使用該公司的D25F、D45以及NX27V核心，D25F、D45為32位元AndeStar v5指令集架構但依循RISC-V技術，NX27V則為64位元，然後也用到RISC-V P（SIMD）、RISC-V V（向量）的延伸指令集等加速技術。

我國晶心科技有3組測試，其中2組使用晶心科技的FPGA開發板ADP-XC7K160/410，圖為160（圖片來源：晶心科技）

嚴格來說，晶心是類同於Arm安謀的純矽智財授權商，沒有自己的晶片，所以晶心其實是用FPGA晶片來實現自己的核心，從而參與測試。另外軟體方面晶心除了用TensorFlow Lite for Microncontrollers外也有搭配自己的Andes NN函式庫。

接著談英國Plumerai，一樣送測3組，分別在STMicro、Cypress的MCU上執行，核心為Cortex-M4、M7。Plumerai主要是彰顯自己的推論引擎軟體技術，但一般毫無硬體加速器的設計下也能有不錯的推測效能。

進一步的是Renesas，送測2組，一組用一般的Cortex-M33但有搭配浮點運算單元（FPU），另一組是Renesas自有架構的32位元RXv2，軟體上都只有跑TensorFlow Lite for Microncontrollers。跑出的結果顯示，Cortex-M33搭配FPU在各種TinyML的情境基準測試上，其反應速率都快過RXv2、功耗用電都低於RXv2。

圖2 Renesas送測自有架構RXv2晶片是用自己的Renesas RX65N Cloud Kit套件（圖片來源：Renesas）

而Arm架構的極大擁護者STMicro也送測3組，核心分別為Cortex-M4、M33、M7，並搭配STMicro自己的軟體X-CUBE-AI v7.1.0，測試結果效能上大體是M7 > M33 > M4，但若省電而言M33為最佳，M4反為最耗電，M7耗電還略低於M4。

再來是0.5版就參與測試的Syntiant，無論0.5版、0.7版都是使用NDP120晶片，但電路板與運作時脈有別，0.7版的2組測試分別為1v1版、0v9版的評估電路板，運作時脈分別為98MHz與30MHz。軟體方面主要為Syntiant自己的Syntiant TDK。

NDP120晶片內雖有Cortex-M0核心，但Syntiant其實主打PIM（Processor-In-Memory）技術，M0核心主要是控制協調之用。Syntiant揭露的測試項很少，只有測試關鍵字發現（Keyword Spotting）一項，但新版有進步，0.5版時的延遲為5.95mS（毫秒），0.7版精進至4.3mS、1.8mS，另0.7版有測試功耗狀況，30MHz版明顯叫98MHz版省電：35.29uJ（微焦耳）優於49.59uJ。

圖3 新創業者Syntiant的NDP120晶片非常嬌小，訴求在高度講究小體積、省電的AI應用（圖片來源：Syntiant）

至於SiLabs只測1組，主要測其MVP加速器、其Gecko SDK。以上是0.7版的Closed送測，是大家遵循一致的標準來測，至於Open測試則無共同依循，可以任意自我宣告，0.7版主要為阿里巴巴跟之前就參與的FastML Lab的hls4ml。

Open類中阿里巴巴有4組，都是（軒鐵）XuanTie C906晶片，核心也是RISC-V，軟體則用Sinian/CSI-NN2，4組各自在一個基準測試中得到很佳的表現，例如視覺喚醒關鍵字上僅有4.702mS，影像分類只有3.122mS，關鍵字為1.202mS，異常偵測為0.208mS，擺明來取分的。

至於FastML Lab有8組，4組使用Xilinx Zynq XC7Z020（內有2個Cortex-A9核心），4組使用Xilinx Artix-7 C7A100T，軟體分別用hls4m 開源框架（用來轉譯機器學習演算法成FPGA韌體）以及FINN編譯器，各項的測試結果多再優於阿里巴巴，例如影像分類可以快到只要1.5mS，關鍵字可以快到只要0.017mS，異常偵測則為0.019mS，只有視覺喚醒關鍵字沒有揭露測試結果，而以阿里巴巴的為最佳。

結語

由於Open等於各自宣說，真正有共同基準的是Closed，筆者列出Closed中4個測試方面最快速、最省電的組：

– 視覺喚醒最快59.40mS，Plumerai搭配Cortex-M7核心

– 視覺喚醒最省4030.97uJ，STMicro的Cortex-M33核心

– 影像分類最快65.10mS，Plumerai搭配Cortex-M7核心

– 影像分類最省4151.13uJ，STMicro的Cortex-M33核心

– 關鍵字追最快1.80mS，Syntiant的98MHz NDP120

– 關鍵字追最省35.29uJ，Syntiant的30MHz NDP120

– 異常偵測最快2.28mS，STMicro的Cortex-M7核心

– 異常偵測最省45.72uJ，SiLabs的Cortex-M33核心

看來看去贏家多是Cortex-M33、M7，另外Plumerai的推論引擎軟體也不錯，Syntiant在PIM硬體技術在關鍵字追蹤表現上極佳。由此可知，新的核心、高階核心跟特有軟硬體真的能在分數上取勝。期待下一次的測試會有更多的業者參與，並給我們更多的驚奇。

（責任編輯：唐育琪）

TinyML效能基準測試：MLPerf Inference:Tiny 0.7版觀察

業者參與陣容大幅擴充

各業者送測的組態配置

結語

延伸閱讀

Submit a Comment 取消回覆

專題企劃

Hack to Refund 第二季

加入MakerPRO粉專

訂閱MakerPRO週報 !

TinyML效能基準測試：MLPerf Inference:Tiny 0.7版觀察

業者參與陣容大幅擴充

各業者送測的組態配置

結語

延伸閱讀

相關文章:

Submit a Comment 取消回覆

專題企劃

Hack to Refund 第二季

加入MakerPRO粉專

訂閱MakerPRO週報 !