作者:陸向陽
我只想租用AI加速晶片上哪找?相信許多人知道是用公有雲,在雲端上用AI加速運算服務,用多少資源、多少時間就依據帳單支付多少錢,不用買晶片。
但具體有哪些可用可買呢?本文嘗試幫各位創客們盤點一下,直接見下表,然後我們再來解釋:
表1 主要公有雲商提供AI加速服務表
晶片類型 | 晶片商 | 公有雲商 | 訓練 | 推論 |
GPGPU | NVIDIA | AWS | V | V |
Azure | V | V | ||
Google Cloud | V | V | ||
AMD Instinct | Azure | V | V | |
KT Cloud | V | V | ||
FPGA | AMD/Xilinx | AWS | V | |
Azure | V | |||
Google Cloud | V | |||
ASIC | Google Cloud TPU | Google Cloud | V | V |
Intel/Habana Labs Gaudi | AWS | V | V | |
AWS Inferentia | V | |||
AWS Trainium | V | |||
Graphcore IPU | Azure | V | V | |
Paperspace | V | V | ||
Microsoft Maia | Azure | V | V |
GPGPU
首先是用GPGPU(或直接稱GPU)來加速,這是目前最普遍的作法,國際級公有雲的三大家(Big-3)都可以提供,即Amazon的AWS(Amazon Web Services)、Microsoft的Azure,以及Google的Google Cloud(更之前稱為GCP,即Google Cloud Platform,2022年改稱Google Cloud)。不僅三大家,其他只要稍具份量的公有雲商都會提供,難與盡數詳列。
進一步的,GPU是用於AI訓練還是推論呢?其實能用於訓練的GPU也就能用於推論,但並不是針對推論工作專精設計的,所以可能算比較慢、功耗用多一點,但NVIDIA除了訓練用也有針對推論用推出晶片,例如T4、A2等。
GPU除了NVIDIA外也有AMD,但AMD GPU目前可用的公有雲服務比較少,Big-3以Azure為主,AMD以Instinct系列的GPU為主,筆者檢視其規格,目前看來仍是以訓練為主並兼具推論,尚無專精於推論的產品,或推論方面改由AMD Vlveo系列為主。除了Azure外,非Big-3也有一些雲端服務商提供AMD GPU的使用,如南韓的KT Cloud。
FPGA與ASIC
接著是FPGA方面,Big-3都提供FPGA的租賃(這裡說的租賃不是把晶片帶回家而後歸還,只是遠端連線使用)使用服務,FPGA在電路特性上以推論加速為主,訓練的效益比較不明顯。
進一步的是ASIC,即完全針對AI加速而開發的晶片,例如Google就自主開發了Cloud TPU晶片,晶片不外賣,只用於自家資料中心,用來給Google相片、Google街景服務標記分類用,但也透過Google Cloud提供租賃服務。Cloud TPU僅一款,未有機房端的推論專用款,事實上Google有針對邊緣運算另推一款Edge TPU,但有外賣,希望裝配在物聯網閘道器內使用,而不是在資料中心。
再來是AWS也自主開發了Inferentia的推論專用加速晶片,之後也推出Trainium的訓練專用晶片,也是不外賣,想使用只能跟AWS租賃使用。
再來是可買到但又可以租賃的,例如Intel Gaudi系列晶片(購併以色列新創Habana Labs取得而後持續發展),目前可以在AWS上租賃使用。值得注意的是,過往Habana Labs是把Gaudi定位為訓練專用晶片,推論專用另有Goya,但目前官網已不見Goya,估計是改在Gaudi上合一發展。Gaudi除了在AWS尚可使用外在德國Genesis Cloud上也即將可以使用(未列於上表)。
另外英國新創Graphcore IPU(Intelligence Processing Unit)也是可以買到,或者是跟Azure租賃使用,不過這項服務去年已經下架,2019年11月上,2022年10月下。
服務下架時,部分報導說是Microsoft對於Graphcore的股權改變所以不再提供服務,但近期Microsoft也推出自己的AI加速專用晶片Maia 100,或許也有部分關連,然更可能是與這三年來的服務市場表現、客戶反應有關。
Microsoft推出Maia 100也象徵一個業界里程碑,至此Big-3都有了自己的AI ASIC晶片,這對其他晶片商恐怕是個打擊,未來想把自己的AI ASIC賣給Big-3而後提供服務,此路線估計將逐漸困難,Big-3必然是優先推行自有晶片的服務。
值得關注的Paperspace、CoreWeave
除了Azure外,非Big-3業者也有提供Graphcore的雲端服務,如Paperspace,不過今年7月知名的雲端業者Digital Ocean或許因為LLM、GAI熱潮而決議加強AI加速雲端服務而購併了Paperspace,目前已屬Digital Ocean,Paperspace提供NVIDIA GPU、Graphcore IPU的雲端服務。
雖然Big-3是雲端服務的要角,但AI雲端服務方面還有一家也不能忽略(未列於上表中),那就是CoreWeave,該公司與NVIDIA密切合作,提供優異的GPU雲端功能但價格卻很實惠,吸引許多AI新創商使用他們的服務,例如NovelAI、Inflection AI等。
結語
最後,雖然創客(Maker)可能偏好自立自主,比較喜歡自己擁有運算力,所以會使用Edge AI、TinyML,但其實密集訓練模型時依然可以善用雲端,比較省錢省時間,一些沒有即時性的推論需求也是可以善用,事實上創客許多專案或多或少都已經不離開雲端,深化運用也很自然,期望每個創客都能因此選擇到合用的雲端AI加速服務。
(責任編輯:謝嘉洵。)
- Sony強力加持!樹莓派發表專屬AI攝影機 - 2024/10/28
- 【Qualcomm Inside】12TOPS Edge AI單板RUBIK Pi規格剖析 - 2024/10/20
- TinyML潛力股!MicroFlow挑戰TensorFlow Lite for Microcontrollers - 2024/10/15