Edge AI晶片正夯　技術趨向怎麼走？

Posted By 陸向陽 on 6 月 10, 2019 in Edge AI開發地圖, 綜論 | 0 comments

作者：陸向陽

Edge AI 晶片愈來愈受到關注與與重視，許多傳統、新興大廠紛紛投入研發，本篇文章將針對Edge AI 晶片的定位與讓人容易混淆的觀念做深入討論。

自從去年 Google 發表 Edge TPU 晶片後，邊緣（ Edge ）用的 AI 晶片逐漸被大家所關注。確實，許多人工智慧的模型在訓練（開發）完成後，必須將模型程式安裝到前端，在前端即時執行（推論、推算、推斷）運作，例如門禁系統的即時臉部辨識、自動駕駛輔助的即時路況辨識等。而要在前端執行，且希望快速執行出推斷結果，或盡可能以省電的方式得到結果，自然就要使用人工智慧加速晶片，即本文標題所言的 Edge AI 晶片。

由於 Edge AI 晶片市場的看好，使許多晶片商紛紛投入市場，包含傳統晶片大廠也包含新興晶片商，晶片大廠如 Intel 、 Renesas 等，新興業者則有 AIStorm 、 Hailo 、 Flex Logic 、 Efinix 、 Cornami 、 Cambricon Tech 、 Xnor 等。 Edge AI 晶片雖夯，但各位可能還未全然了解其定位，或與其他觀念混淆，本文以下將對此討論。

Edge AI 的定位居中

Edge AI 晶片的定位一般是配置於物聯網閘道器中，或是比較有運算力、有硬體資源的感測器節點中。 EdgeAI 晶片估計不會放在手機內，原因在於手機對機內空間高度苛求，若有人工智慧運算的硬體加速需求，通常會在手機內的應用程式處理器（ Application Processor ）晶片中追加設計 AI 加速電路，或稱為具備 AI 功能的 SoC ，而不會使用專屬獨立配置的加速晶片。

Edge AI 也不會用於桌上型環境或資料中心環境，因為那些環境可以從電源插座取得源源不絕的電力，也有較寬裕的散熱空間。 Edge AI 設想上會用於配置空間要求較手機寬一些，電力充沛度也較手機寬一些的環境。

Edge AI 只是推論晶片的一種

在 2016 年人工智慧技術重新熱門後，經 1 、 2 年的推展，已有許多訓練好的模型需要執行，為了讓推論執行最佳化，因而有了推論專用的 AI 加速晶片， Edge AI 只是推論專用晶片的一種，但不是唯一，現在也有專門配置在資料中心機房內使用的推論專用晶片，如 NVIDIA 的 Tesla T4 加速卡，其功耗約 70 瓦，一般情況下不適合用於 Edge 領域（電力取得較有限，特殊情形將於後述）。

而去年 11 月 AWS 預告今年將推出的 Inferentia 晶片，也是專用於機房內的 AI 推論晶片，或 FPGA 晶片大廠 Xillinx 推出的 Alveo 也屬於機房內專用的 AI 推論型 FPGA 加速卡，或以色列新創業者 Habana Labs 推出的 Goya HL-1000 加速卡也是。

不過有些機房端專屬的推論晶片有時也會配置到前端，例如 Lenovo 的 Edge Server ： SE350 ，即是設想裝設於感測現場的伺服器（物聯網閘道器）， SE350 機內即可加裝 NVIDIA Tesla T4 ，但前提是 SE350 可以取得寬裕、源源不絕的電能才行。

可配置 NVIDIA Tesla T4 加速卡的 Lenovo SE350 邊緣伺服器（圖片來源：ZDNet）

FPGA 晶片大廠 Xilinx 提出 Alveo 加速卡，鎖定機房內推論運算而來（圖片來源：Fudzilla）

新創業者 Habana Labs 推出機房用 Goya HL-1000 推論加速卡（圖片來源：sensorsmag）

另一種特例是車用的 Edge AI 晶片，由於汽車多有蓄電瓶，電力多過手機之類的手持裝置，但仍無法與交流家用插座比擬，如此仍允許使用較多的電力來執行 Edge 端的人工智慧推論，此也屬 Edge AI 晶片，但卻較為耗電。

雖然車用 Edge AI 晶片、機房 AI 推論晶片等，與真正 Edge AI 晶片間沒有明確分界，但筆者以現行經驗認為，以子系統板卡的功耗 10 瓦為分界較務實，或再分成更低的 5 瓦、 1 瓦等。

推論晶片轉向低精度、混精度、正整數

人工智慧在訓練學習階段使用 32 位元或 16 位元浮點數運算，但到了推論階段則有不同的取向，開始傾向用整數運算，如 32 位元或 16 位元整數，甚至開始降低整數的精度，如 8 位元、 4 位元，例如 Google Edge TPU 只支援 INT16 、 INT8 的整數推論運算，沒有支援浮點數。

除精度降減外，也開始有混合精度的需要，即同時運算整數與浮點數，如 AWS Inferentia 同時運算 INT8 與 FP16 ；或者是同時混合運算不同精度的浮點數，如 NVIDIA Tesla T4 同時運算 FP16 與 FP32 ；或者是完全正整數的需要，即不使用負數來運算，如 Habana Labs HL-1000 支援正整數 8/16/32 位元，即 UINT8/16/32 。這些需求同時適用於機房內的推論用晶片，也適用於 Edge AI 晶片。

Edge AI 重視封裝尺寸與每瓦運算力

最後對 Edge AI 晶片而言，由於可取得的電能較有限，以及可能配置的機內空間也有限，所以各晶片商都盡量講求每瓦可帶來的運算力（ TOPS/Watt 或 Tflops/Watt ），以及晶片封裝後仍然只有極小的體積、面積，因而經常有 Edge AI 晶片的照片是與銅板錢幣合拍，即在強調其嬌小程度。

以色列業者 Hailo 的 Edge AI 晶片 Hailo-8 只有指頭般大小（圖片來源：VentureBeat）

美國矽谷業者 GTI（Gyrfalcon Technology Inc.）的 Edge AI 晶片 Lightspeeur SPR2801S 比銅板還要小（圖片來源：Gyrfalcon Technology 官網）

而在每瓦效能方面，新創業者 Hailo 強調其 Hailo-8 晶片可在 INT8 精度下，每瓦有 26TOPS 的運算力；日本大廠 Renesas 於 2018 年 2 月預告將推出 1 瓦電能即有 5TOPS 的新款 R-Car 系列系統單晶片（ SoC ）， Intel 亦預告將推出 10 瓦電能 24TOPS 的新款 EyeQ5 晶片，均是「宣告於一定瓦數內盡可能達高效能」的例證。