【Edge AI專欄】從Computex 2024看邊緣智慧明日之星NPU

Posted By 許哲豪 on 6 月 25, 2024 in AI PC, AI關鍵技術, Edge AI應用案例, Edge AI解決方案, vMaker, 特寫 | 0 comments

作者：Jack OmniXRI

今（2024）年台北國際電腦展(Computex)[1]大概是1984年開展至今最精彩的一年的吧！Nvidia, AMD, Qualcomm, Arm, Intel, Mediatek, SuperMicro, NXP CEO 竟同時出現在台北 Computex，還創造了新一波的夜市追星熱潮。回顧過去幾年，受到上海 CES Asia、Covid-19 疫情、地緣政治影響，參展及參觀人數皆大幅下滑，不禁讓人為這個世界前三大的國際電腦展的未來捏把冷汗。

2022年底ChatGPT橫空出世，帶動新一波人工智慧應用熱潮，大量的大語言模型(LLM)及生成式智慧(AIGC, genAI)被提出，同時也帶動AI伺服器的軍備競賽，使得台灣供應鏈及週邊廠商順勢而起，成為全球矚目的焦點。2023年底英特爾(Intel)喊出 AIPC 時代到來，「不需上網」也能完成AI應用的推論運算，於是把神經網路加速處理單元(Neural Network Processing Unit, NPU)加入最新一代 CPU – Meteor Lake (Core Ultra)中。

接著又有微軟(Microsoft)提出 AI Copilot+PC 定義，未來要有 40 TOPS（每秒40兆次計算）以上算力才能稱為 AIPC，從此拉開各家 NPU 之戰，也帶動台灣工業電腦、桌機、筆電、平板、手機及週邊廠商的新一波商機。而此次 NPU 也不意外地成了 Computex 2024 的目光焦點。

在上一期專欄「#17 開發者如何選擇 Edge AI 開發方案」[2]中已簡單將可不需連網且獨立推論AI模型的邊緣智慧(Edge AI)裝置簡單分為五個等級，而對應此次 Computex 重點廠商，如下所示。

Edge Server, AI伺服器等級，如 Intel Xeon 6(CPU), Nvidia GB200(GPU), SuperMicro 等。
NB AI (AIPC)，CPU內建或外加 GPU/NPU 之桌機、筆電、工業電腦等級，如 Intel Meteor/Lunar Lake, AMD Ryzon AI, Nvidia RTX 40系列等。
Mobile AI，平板、手機等行動通訊裝置等級，如 Qualcomm Snapdragon X Elite, Arm Cortex-X, Mediatek 9300+ 等。
SBC AI，單板微電腦及搭配NPU應用等級，如 NXP i.MX 93/95, Keno 300/KL830, DeepX DX-M1 等。
Wearable AI，單晶片等級，如 NXP MCX-N54/94 等。

為了讓大家更了解什麼是 NPU，為何要用 NPU 及此次 Computex 2024 究竟各家端出了什麼大菜，以下就簡單整理一下提供大家參考。各家在 Computex 上的專題演講完整影片可參考文末【參考文獻】連結[4]~[12]。

1. 什麼是 NPU ？為何是它？

2012年 Krizhevsky, Alex 使用 Nvidia GPU 及卷積神經網路(CNN)以優異表現贏下 ImageNet 比賽，從此開啟 GPU 即 AI 的刻板印象。為什麼呢？因為原來 GPU 是為了 3D 繪圖及遊戲所設計的專用元件，專門用來處理巨量矩陣計算。其中最主要的計算核心說穿了就是可以大量平行處理 Y = A * B + C，或者可稱為乘積累加運算（Multiply Accumulate, MAC）。

一般來說， CPU 一個核心一次只能處理一個乘法或加法，而 GPU 一個單元可同時處理一個乘法及加法，這樣處理速度就快了兩倍。在同一顆 GPU 中可以有數百甚至數萬個單元，這樣計算速度就比 CPU 快上數百到數萬倍，如此才能滿足即時高擬真感 3D 遊戲所帶來的巨量計算。

後來有些科學家及計算機工程師發現可以透過 GPU 來解決科學計算常用到矩陣計算，於是大量投入研究，將單位時間算力大幅升。隨著 Alex 勝出 ImagNet 比賽後， Nvidia 也發現這個 AI 商機，全力壓寶 GPU & CUDA，每半年就推出新一代產品，用以解決 AI 模型計算量從每秒數百萬次快速成長到每秒數百兆次運算的問題，才造就今日 AI 沒有 Nvidia GPU 就難以大規模實現應用場景。

最初的 GPU 還身兼繪圖工作，80%以上工作都在處理繪圖流水線問題，造成很高的能耗，所以開始有 IC 設計公司推出神經網路加速處理單元(NPU)，專門用來應付 AI 計算需求，去除所有不相關的電路，如此即可用極低功耗來完成高速計算需求。但缺點和 GPU 一樣，無法獨立存在，需要依附在 CPU 下工作，於是開始有很多微處理器(MPU)或系統單晶片(SoC)開始將 NPU 加入其中，協助更多 AI 應用。雖然這樣的組合已存在數年，但由於以往 NPU 算力不到1TOPS或者只有幾個TOPS，所以並沒有特別強調。

隨著去(2023)年底 Intel 推出 AIPC 概念，把高效節能的 NPU 加入 CPU中，主打在筆電上僅作 AI 推論，不用太高（數百 TOPS）算力。緊接著各家也陸續開始宣稱 NPU 時代來臨，把自家原有的 AI 加速能力強調出來，並快速迭代，所以此次 Computex 才有 NPU 變成眾星拱月的盛況出現。

註：如果想了解更多 AI 晶片相關技術演進，可參考「【vMaker Edge AI專欄 #03】AI晶片發展歷史及最新趨勢」[3]，這裡就不多作說明。

2. Computex NPU 火力展示

由於各家對於 AI 加速計算的元件稱呼方式不同，為方便說明，以下統一稱為 NPU。而主要性能指標為每秒幾兆次運算（TOPS），但要注意其運算模型時所使用的數值單位，各家並無統一規格，到底是使用浮點數32或16或8位元(FP32 / FP16 / BF16 / FP8)還是整數8或4位元（INT8 / INT4），因為在相同硬體條件下，使用 INT8 推論時通常會比 FP32 快上2~3倍多，若比較基準不同就會出現爭議。

2.1 GPU 系列 – 輝達(Nvidia)

此次 Computex Nvidia 並不在 Keynote 名單中，而是自己辦了一場獨立演唱會，展示的技術內容和四月份剛舉辦過的 GTC 大致相同，主要強調 AI 伺服器技術及和台灣伙伴們的合作關係。當然對於 AIPC 的定義， Nvidia 自然也是以自家 Geforce RTX 40 系列繪圖卡的 GPU 為主而不是 NPU，以筆電(Laptop)為例，大約可從 194 到 686 TOPS（如Fig. 1所示），不只可用於推論，更可用來作為訓練模型，但相對地其功耗也是相當驚人，非常不利使用電池的筆電。

Fig. 1 NVIDIA AI 筆電及算力表。

2.2 x86 CPU系列 – 英特爾(Intel) / 超微(AMD)

Intel 去(2023)年推出 Meteor Lake (Core Ultra) 除加強原有的內顯(iGPU) Iris 外，還首度將 NPU 加入，就是以往神經運算棒 NCS2 的加強版，提供了約11.5TOPS(@INT8) 的算力，今年更再接再勵推出 Lunar Lake，將 iGPU的算力推上67TOPS, 而 NPU 也有48TOPS，整體推論能力可高達 120TOPS。

或許大家會疑算力可以直接相加嗎？這個地方就有賴 Intel OpenVINO 來加持了，這也是其它家如Google TensorFlow Lite, PyTorch Mobile, Nvidia TensorRT 所沒有提供的，它可自動適當調用及配置所有硬體算力，把不同性質工作分配到不同硬體上處理，如此雖不能將算力直接相加，但絕對比只單獨使用一種來的快。若在算力允許下，最好可以全部以 NPU 來推論，因為這樣的能耗最低，可讓筆電使用時間更長。更多效能數據可參考Fig. 2所示。

Fig. 2 Intel Lunar Lake 各項效能表現示意圖。

AMD 去(2023)年併購知名 FPGA 大廠 Xilinx，同時也將其 AI 加速方案整合到最新 CPU 中，稱為 Ryzen AI，並將 AI 加速推論硬體也稱為 NPU，如此就和 Intel Core Ultra 一樣，同一顆晶片中，同時擁有多核心 CPU, 高效繪圖 GPU 及高效低功耗 AI 推論 NPU。

目前像 Acer, Asus, Dell, Hp 及 Lenovo 都有生產相關 AIPC 筆電。其主要晶片 Ryzen AI 9 HX370, 365 的 NPU 皆有 50TOPS, 而總算力前者高達80TOPS，後者也有73TOPS。如Fig. 3左下圖示，從各項評比來看，HX370 較 Qualcomm Snapdragon X Elite, Apple M3, Intel Core Ultra 都來得高效、低功耗。

Fig. 3 AMD Ryzen 9 AI 各項效能表現示意圖。

2.3 Arm 筆電系列 – 高通(Qualcomm) / 安謀(Arm)

Arm 提供了各種 CPU 矽智財(SIP)，從單晶片(MCU)、微處理器(MPU)、系統級晶片(SoC)甚至筆電用 CPU 。以往在筆電上只有微軟的 Surface PRO 和 Apple MacBook 採用 Arm 架構的CPU，前者可直接運行 Windows，而後者可運行 macOS。去（2023）年底微軟喊出 Copilot+ AIPC 的概念，要求要有 40TOPS算力且能順利運行自家提出的 AI 相關應用才能稱為 AIPC ，如大語言對話、生成影像、影片即時字幕等。但當時還沒一家廠商可以滿足，包含已上市的 Intel Core Ultra。

高通以往使用 Arm 架構開發出很多手機、平板等系統級晶片，這次更是使用 Arm Cortex-X 系列 IP，推出驍龍 Snapdragon X Elite 的筆電，它不只可以直接運行微軟的 Windows 11，還直接內建45TOPS的 NPU，算是第一款滿足微軟定義的 AIPC 規格。目前像 Acer, Asus, Dell, HP, Samsung, Lenovo 都有生產此類型筆電。其它相關效能表現如Fig. 4所示。

Fig. 4 高通驍龍 X Elite 各項效能表現示意圖。

安謀(Arm)為一家專業矽智財(SIP)供應商，它不生產任何一顆晶片，但目前有九成以上的手機、平板主晶片都使用他們提供的解決方案。此次有相當多的伙伴推出相關產品，從上游晶片、中游桌機、筆電、嵌入式裝置到下游應用軟體皆有，有豐富且完整的生態系。

此次重點則放在 Window on Arm 及 KleidiAI 開發環境，它可整合終端產品運算子系統(CSS)及原有的 NEON, SVE2, SME2等AI加速指令集，讓開發者能更輕易的開發 AI 相關應用軟體，如Fig. 5所示。

Fig. 5 安謀(Arm)生態系及 KleidiAI 開發環境示意圖。

註：Apple雖然未參展，但前不久推出的 iPad Pro 使用的 M4 晶片亦屬於 Arm 架構 CPU, 同時也內建 NPU 提供38TOPS的算力，亦成為未來智慧平板(AI Tablet)甚至智慧筆電(AIPC)的代表。所以前一代 M3 晶片也成了此次 Computex 各家比較的對象。

2.4 Arm SoC/MPU系列 – 聯發科(Mediatek) / 恩智浦(NXP)

聯發科為手機系統級晶片(SoC)的主要供應商，其 CPU 也是使用 Arm 架構，今(2024)年初在 CES 展會上推出 AI手機解決方案「天磯（Dimemsity） 9300」大受好評，此次更推出加強版「9300+」。天璣系列從早期就有 APU (即 NPU) 設計，用來處理影像相關應用，如影像分類、物件偵測等。9300系列推出後更將 NPU 性能大幅提升，使其能離線推論33B（330億個參數 @INT4）的大語言模型(LLM)。

此次「9300+」更是將 NPU 算力提升到68TOPS，讓手機也能在很短時間內直接生成文字和影像。從演說中展示一邊打字描述「一個灰白頭髮背影穿黑夾克走在台灣夜市」，同時快速生成影像並一直修正影像內容，直到一張類似黃教主的背影影像出現，就可看出其強悍的算力及離線精準推論的能力。如Fig. 6可得到更多相關效能表現。

Fig. 6 聯發科(Mediatek) 天璣9300+ 各項效能表現示意圖。

另外微處理器(MPU)及單晶片(MCU)大廠恩智浦(NXP)也是使用 Arm 架構的 CPU，此次專題演講中，對於產品能表現的 AI 性能及 NPU 的介紹並沒有很多，反而是在強調未來各種落地的應用之間的關連，從感測、思考、連接到行動都離不開NXP的產品，其中又以汽車領域作了很多說明。這裡就幫 NXP 作點補充，目前在 MCU 產品線中 MCX-N 系列算是第一個引入 NPU 的產品，其中 N94x / N95x 系列使用的是自家的 NPU 架構 eIQ。

而 MPU 產品線中 i.MX93 使用的是 Arm Ethos-U65 MicroNPU, 而 i.MX95則是使用自家的 eIQ NPU。雖然這幾項產品 NPU 算力只有幾TOPS，但對傳統小尺寸影像的AI應用還是有起到加速作用，可大幅改善以往只使用 Cortex-M 或 Cortex-A CPU 推論速度太慢的問題。如Fig. 7 所示。

Fig. 7 思智浦(NXP) 自帶 NPU 之 MCU/MPU 規格示意圖

2.5 其它 NPU – 耐能(Kneron) / DeepX

本次除了幾個大廠CEO賣力推銷 AIPC & AIPhone 的 NPU 解決方案外，還有不少廠商推出 MPU+NPU 或獨立 NPU 加速卡，這裡舉兩個代表性廠商，台灣的耐能和韓國的DeepX。

耐能在過去幾年推出了不少 NPU 解決方案，如KL520 / KL530等，此次推出專門用於邊緣端執行大語言模型的解決方案，Edge GPT Kneo 300 及使用最新 KL830 (Arm Based MPU + NPU) 所組成的 Edge GPT Server Kneo 330。前者算力可達30TOPS(@ INT8)，後者則具有48TOPS，還可支援最多八個併發連接的擴展。如 Fig. 8左圖所示。

DeepX則推出多種 NPU 晶片解決方案，包括DX-M1(25TOPS), DX-H1(400TOPS), DX-V1(5TOPS)及DX-V3(16TOPS)，另外也有提供 M.2, PCIe 介面擴充卡及各式小型智慧相機模組，可提供如嵌入式、機器人、資料中心推論計算等應用。而這些產品在今(2024)年CES展會上也有都有得到創新獎(Innovation Awards)，值得關注。

Fig. 8 台灣的耐能和韓國的DeepX

小結

此次 Computex Keynote 重點幾乎都放在AI上，尤其是未來邊緣智慧裝置(筆電/手機/平板/穿戴式）的離線推論，除了傳統的電腦視覺應用外，大語言模型及各種生成式應用更是不可或缺。

雖然此次各家都很強調 NPU 的性能指標 TOPS，但這就像汽車引擎有幾馬力一樣，誰家的車能跑得更快，還有很多週邊要搭配，更有路上交管要配合，不然就像跑車在下班時間的台北街頭，可能移動速度會比腳踏車還慢。

目前隨著硬體效能快速提升、計算功耗及採購金額逐漸下降，AI應用軟體更容易開發，相信不久的將來大家都能過著更輕鬆便利的生活。

參考文獻

[1] Computex, InnoVEX

[2] 許哲豪，【vMaker Edge AI專欄 #17】開發者如何選擇 Edge AI 開發方案

[3] 【vMaker Edge AI專欄 #03】AI晶片發展歷史及最新趨勢

[4] Nvidia, NVIDIA CEO Jensen Huang Keynote at COMPUTEX 2024

[5] AMD, AMD at Computex 2024: AMD AI and High-Performance Computing with Dr. Lisa Su

[6] Qualcomm, Snapdragon Computex 2024 Keynote: The PC Reborn

[7] Arm, Arm 執行長 Rene Haas 在 Computex 期間的主題演講「加速從雲到端的 AI 創新」

[8] Intel, Computex 2024 Keynote: Intel Enables AI Everywhere (Replay)

[9] Mediatek, Intelligence Everywhere: The Power of Ubiquitous AI

[10] NXP, NXP Keynote at Computex 2024 with CTO Lars Reger

[11] CNBC, Kneron CEO discusses new AI chip and server products

[12] iDS, DEEPX COMPUTEX 2024 展出AI加速器晶片、模組與AI SOC

延伸閱讀

[A] 許哲豪，【vMaker Edge AI專欄 #14】從CES 2024 看Edge AI及TinyML最新發展趨勢

[B] 許哲豪，【vMaker Edge AI專欄 #15】從MWC 2024看AI手機未來發展

[C] 許哲豪，【vMaker Edge AI專欄 #16】AIPC開箱實測 ─ Yolov8斜物件偵測

（本篇文章經同意轉載自vMaker，原文連結；責任編輯：謝嘉洵。）

About
Latest Posts

許哲豪

工作經驗超過二十年，主要專長機電整合、電腦視覺、人機互動、人工智慧、專利分析及新創輔導。曾任機電整合工程師、機器視覺研發副理、技轉中心商業發展經理。目前擔任多家公司兼任技術顧問並積極推廣實境互動相關技術。
主持歐尼克斯實境互動工作室(OmniXRI)：http://omnixri.blogspot.com
Edge AI Taiwan邊緣智能交流區：https://www.facebook.com/groups/edgeaitw/