【啟動AI Maker世代 】2024 MAI 開發者社群大會(5/16-17)
|

我只想租用AI加速晶片上哪找?

   

作者:陸向陽

我只想租用AI加速晶片上哪找?相信許多人知道是用公有雲,在雲端上用AI加速運算服務,用多少資源、多少時間就依據帳單支付多少錢,不用買晶片。

但具體有哪些可用可買呢?本文嘗試幫各位創客們盤點一下,直接見下表,然後我們再來解釋:

表1 主要公有雲商提供AI加速服務表

晶片類型 晶片商 公有雲商 訓練 推論
GPGPU NVIDIA AWS V V
Azure V V
Google Cloud V V
AMD Instinct Azure V V
KT Cloud V V
FPGA AMD/Xilinx AWS V
Azure V
Google Cloud V
ASIC Google Cloud TPU Google Cloud V V
Intel/Habana Labs Gaudi AWS V V
AWS Inferentia V
AWS Trainium V
Graphcore IPU Azure V V
Paperspace V V
Microsoft Maia Azure V V

AWS上可使用的AI加速執行個體,Trainium為AWS官方訓練用晶片,Habana Gaudi為Intel的晶片,其他為NVIDIA的GPGPU晶片。(圖片來源:AWS官網)

Google Cloud上不同世代的Google Cloud TPU其租賃使用的價格也不同(圖片來源:Google Cloud官網)

GPGPU

首先是用GPGPU(或直接稱GPU)來加速,這是目前最普遍的作法,國際級公有雲的三大家(Big-3)都可以提供,即Amazon的AWS(Amazon Web Services)、Microsoft的Azure,以及Google的Google Cloud(更之前稱為GCP,即Google Cloud Platform,2022年改稱Google Cloud)。不僅三大家,其他只要稍具份量的公有雲商都會提供,難與盡數詳列。

進一步的,GPU是用於AI訓練還是推論呢?其實能用於訓練的GPU也就能用於推論,但並不是針對推論工作專精設計的,所以可能算比較慢、功耗用多一點,但NVIDIA除了訓練用也有針對推論用推出晶片,例如T4、A2等。

GPU除了NVIDIA外也有AMD,但AMD GPU目前可用的公有雲服務比較少,Big-3以Azure為主,AMD以Instinct系列的GPU為主,筆者檢視其規格,目前看來仍是以訓練為主並兼具推論,尚無專精於推論的產品,或推論方面改由AMD Vlveo系列為主。除了Azure外,非Big-3也有一些雲端服務商提供AMD GPU的使用,如南韓的KT Cloud。

FPGA與ASIC

接著是FPGA方面,Big-3都提供FPGA的租賃(這裡說的租賃不是把晶片帶回家而後歸還,只是遠端連線使用)使用服務,FPGA在電路特性上以推論加速為主,訓練的效益比較不明顯。

進一步的是ASIC,即完全針對AI加速而開發的晶片,例如Google就自主開發了Cloud TPU晶片,晶片不外賣,只用於自家資料中心,用來給Google相片、Google街景服務標記分類用,但也透過Google Cloud提供租賃服務。Cloud TPU僅一款,未有機房端的推論專用款,事實上Google有針對邊緣運算另推一款Edge TPU,但有外賣,希望裝配在物聯網閘道器內使用,而不是在資料中心。

再來是AWS也自主開發了Inferentia的推論專用加速晶片,之後也推出Trainium的訓練專用晶片,也是不外賣,想使用只能跟AWS租賃使用。

再來是可買到但又可以租賃的,例如Intel Gaudi系列晶片(購併以色列新創Habana Labs取得而後持續發展),目前可以在AWS上租賃使用。值得注意的是,過往Habana Labs是把Gaudi定位為訓練專用晶片,推論專用另有Goya,但目前官網已不見Goya,估計是改在Gaudi上合一發展。Gaudi除了在AWS尚可使用外在德國Genesis Cloud上也即將可以使用(未列於上表)。

另外英國新創Graphcore IPU(Intelligence Processing Unit)也是可以買到,或者是跟Azure租賃使用,不過這項服務去年已經下架,2019年11月上,2022年10月下。

服務下架時,部分報導說是Microsoft對於Graphcore的股權改變所以不再提供服務,但近期Microsoft也推出自己的AI加速專用晶片Maia 100,或許也有部分關連,然更可能是與這三年來的服務市場表現、客戶反應有關。

Microsoft推出Maia 100也象徵一個業界里程碑,至此Big-3都有了自己的AI ASIC晶片,這對其他晶片商恐怕是個打擊,未來想把自己的AI ASIC賣給Big-3而後提供服務,此路線估計將逐漸困難,Big-3必然是優先推行自有晶片的服務。

值得關注的Paperspace、CoreWeave

除了Azure外,非Big-3業者也有提供Graphcore的雲端服務,如Paperspace,不過今年7月知名的雲端業者Digital Ocean或許因為LLM、GAI熱潮而決議加強AI加速雲端服務而購併了Paperspace,目前已屬Digital Ocean,Paperspace提供NVIDIA GPU、Graphcore IPU的雲端服務。

Paperspace by DigitalOcean推出可使用Graphcpre IPU的雲端服務(圖片來源:Paperspace官網)

雖然Big-3是雲端服務的要角,但AI雲端服務方面還有一家也不能忽略(未列於上表中),那就是CoreWeave,該公司與NVIDIA密切合作,提供優異的GPU雲端功能但價格卻很實惠,吸引許多AI新創商使用他們的服務,例如NovelAI、Inflection AI等。

CoreWeave是與NVIDIA密切合作的GPU Cloud服務商,正主打租用HGX H100每小時最低2.23美元(圖片來源:CoreWeave官網)

結語

最後,雖然創客(Maker)可能偏好自立自主,比較喜歡自己擁有運算力,所以會使用Edge AI、TinyML,但其實密集訓練模型時依然可以善用雲端,比較省錢省時間,一些沒有即時性的推論需求也是可以善用,事實上創客許多專案或多或少都已經不離開雲端,深化運用也很自然,期望每個創客都能因此選擇到合用的雲端AI加速服務。

(責任編輯:謝嘉洵。)

陸向陽
陸向陽

Author: 陸向陽

從電子科系畢業後,即以媒體人的角色繼續這段與「電子科技」的不解之緣。歷任電子技術專書作者、電子媒體記者、分析師等角色,並持續寫作不殆。近來投入Arduino、Raspberry Pi等開放硬體的研究與教程介紹。

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *