【啟動AI Maker世代 】2024 MAI 開發者社群大會(5/16-17)
|

Edge AI晶片正夯 技術趨向怎麼走?

   

作者:陸向陽

Edge AI 晶片愈來愈受到關注與與重視,許多傳統、新興大廠紛紛投入研發,本篇文章將針對Edge AI 晶片的定位與讓人容易混淆的觀念做深入討論。

自從去年 Google 發表 Edge TPU 晶片後,邊緣( Edge )用的 AI 晶片逐漸被大家所關注。確實,許多人工智慧的模型在訓練(開發)完成後,必須將模型程式安裝到前端,在前端即時執行(推論、推算、推斷)運作,例如門禁系統的即時臉部辨識、自動駕駛輔助的即時路況辨識等。而要在前端執行,且希望快速執行出推斷結果,或盡可能以省電的方式得到結果,自然就要使用人工智慧加速晶片,即本文標題所言的 Edge AI 晶片。

由於 Edge AI 晶片市場的看好,使許多晶片商紛紛投入市場,包含傳統晶片大廠也包含新興晶片商,晶片大廠如 Intel 、 Renesas 等,新興業者則有 AIStorm 、 Hailo 、 Flex Logic 、 Efinix 、 Cornami 、 Cambricon Tech 、 Xnor 等。 Edge AI 晶片雖夯,但各位可能還未全然了解其定位,或與其他觀念混淆,本文以下將對此討論。

Edge AI 的定位居中

Edge AI 晶片的定位一般是配置於物聯網閘道器中,或是比較有運算力、有硬體資源的感測器節點中。 EdgeAI 晶片估計不會放在手機內,原因在於手機對機內空間高度苛求,若有人工智慧運算的硬體加速需求,通常會在手機內的應用程式處理器( Application Processor )晶片中追加設計 AI 加速電路,或稱為具備 AI 功能的 SoC ,而不會使用專屬獨立配置的加速晶片。

Edge AI 也不會用於桌上型環境或資料中心環境,因為那些環境可以從電源插座取得源源不絕的電力,也有較寬裕的散熱空間。 Edge AI 設想上會用於配置空間要求較手機寬一些,電力充沛度也較手機寬一些的環境。

Edge AI 只是推論晶片的一種

在 2016 年人工智慧技術重新熱門後,經 1 、 2 年的推展,已有許多訓練好的模型需要執行,為了讓推論執行最佳化,因而有了推論專用的 AI 加速晶片, Edge AI 只是推論專用晶片的一種,但不是唯一,現在也有專門配置在資料中心機房內使用的推論專用晶片,如 NVIDIA 的 Tesla T4 加速卡,其功耗約 70 瓦,一般情況下不適合用於 Edge 領域(電力取得較有限,特殊情形將於後述)。

而去年 11 月 AWS 預告今年將推出的 Inferentia 晶片,也是專用於機房內的 AI 推論晶片,或 FPGA 晶片大廠 Xillinx 推出的 Alveo 也屬於機房內專用的 AI 推論型 FPGA 加速卡,或以色列新創業者 Habana Labs 推出的 Goya HL-1000 加速卡也是。

不過有些機房端專屬的推論晶片有時也會配置到前端,例如 Lenovo 的 Edge Server : SE350 ,即是設想裝設於感測現場的伺服器(物聯網閘道器), SE350 機內即可加裝 NVIDIA Tesla T4 ,但前提是 SE350 可以取得寬裕、源源不絕的電能才行。

可配置 NVIDIA Tesla T4 加速卡的 Lenovo SE350 邊緣伺服器(圖片來源:ZDNet

FPGA 晶片大廠 Xilinx 提出 Alveo 加速卡,鎖定機房內推論運算而來(圖片來源:Fudzilla

新創業者 Habana Labs 推出機房用 Goya HL-1000 推論加速卡(圖片來源:sensorsmag

另一種特例是車用的 Edge AI 晶片,由於汽車多有蓄電瓶,電力多過手機之類的手持裝置,但仍無法與交流家用插座比擬,如此仍允許使用較多的電力來執行 Edge 端的人工智慧推論,此也屬 Edge AI 晶片,但卻較為耗電。

雖然車用 Edge AI 晶片、機房 AI 推論晶片等,與真正 Edge AI 晶片間沒有明確分界,但筆者以現行經驗認為,以子系統板卡的功耗 10 瓦為分界較務實,或再分成更低的 5 瓦、 1 瓦等。

推論晶片轉向低精度、混精度、正整數

人工智慧在訓練學習階段使用 32 位元或 16 位元浮點數運算,但到了推論階段則有不同的取向,開始傾向用整數運算,如 32 位元或 16 位元整數,甚至開始降低整數的精度,如 8 位元、 4 位元,例如 Google Edge TPU 只支援 INT16 、 INT8 的整數推論運算,沒有支援浮點數。

除精度降減外,也開始有混合精度的需要,即同時運算整數與浮點數,如 AWS Inferentia 同時運算 INT8 與 FP16 ;或者是同時混合運算不同精度的浮點數,如 NVIDIA Tesla T4 同時運算 FP16 與 FP32 ;或者是完全正整數的需要,即不使用負數來運算,如 Habana Labs HL-1000 支援正整數 8/16/32 位元,即 UINT8/16/32 。這些需求同時適用於機房內的推論用晶片,也適用於 Edge AI 晶片。

Edge AI 重視封裝尺寸與每瓦運算力

最後對 Edge AI 晶片而言,由於可取得的電能較有限,以及可能配置的機內空間也有限,所以各晶片商都盡量講求每瓦可帶來的運算力( TOPS/Watt 或 Tflops/Watt ),以及晶片封裝後仍然只有極小的體積、面積,因而經常有 Edge AI 晶片的照片是與銅板錢幣合拍,即在強調其嬌小程度。

以色列業者 Hailo 的 Edge AI 晶片 Hailo-8 只有指頭般大小(圖片來源:VentureBeat

美國矽谷業者 GTI(Gyrfalcon Technology Inc.)的 Edge AI 晶片 Lightspeeur SPR2801S 比銅板還要小(圖片來源:Gyrfalcon Technology 官網

而在每瓦效能方面,新創業者 Hailo 強調其 Hailo-8 晶片可在 INT8 精度下,每瓦有 26TOPS 的運算力;日本大廠 Renesas 於 2018 年 2 月預告將推出 1 瓦電能即有 5TOPS 的新款 R-Car 系列系統單晶片( SoC ), Intel 亦預告將推出 10 瓦電能 24TOPS 的新款 EyeQ5 晶片,均是「宣告於一定瓦數內盡可能達高效能」的例證。

Intel 設定 EyeQ 5 晶片能在 10 瓦電力內達到 24TOPS 效能(圖片來源:OGAWA Tadashi’s twitter

(責任編輯:楊子嫻)

陸向陽
陸向陽

Author: 陸向陽

從電子科系畢業後,即以媒體人的角色繼續這段與「電子科技」的不解之緣。歷任電子技術專書作者、電子媒體記者、分析師等角色,並持續寫作不殆。近來投入Arduino、Raspberry Pi等開放硬體的研究與教程介紹。

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *