我只想租用AI加速晶片上哪找？

Posted By 陸向陽 on 11 月 28, 2023 in Edge AI開發地圖, 科普, 綜論 | 0 comments

作者：陸向陽

我只想租用AI加速晶片上哪找？相信許多人知道是用公有雲，在雲端上用AI加速運算服務，用多少資源、多少時間就依據帳單支付多少錢，不用買晶片。

但具體有哪些可用可買呢？本文嘗試幫各位創客們盤點一下，直接見下表，然後我們再來解釋：

表1 主要公有雲商提供AI加速服務表

晶片類型	晶片商	公有雲商	訓練	推論
GPGPU	NVIDIA	AWS	V	V
		Azure	V	V
		Google Cloud	V	V
	AMD Instinct	Azure	V	V
	AMD Instinct	KT Cloud	V	V
FPGA	AMD/Xilinx	AWS		V
		Azure		V
		Google Cloud		V
ASIC	Google Cloud TPU	Google Cloud	V	V
	Intel/Habana Labs Gaudi	AWS	V	V
	AWS Inferentia			V
	AWS Trainium		V
	Graphcore IPU	Azure	V	V
	Graphcore IPU	Paperspace	V	V
	Microsoft Maia	Azure	V	V

AWS上可使用的AI加速執行個體，Trainium為AWS官方訓練用晶片，Habana Gaudi為Intel的晶片，其他為NVIDIA的GPGPU晶片。（圖片來源：AWS官網）

Google Cloud上不同世代的Google Cloud TPU其租賃使用的價格也不同（圖片來源：Google Cloud官網）

GPGPU

首先是用GPGPU（或直接稱GPU）來加速，這是目前最普遍的作法，國際級公有雲的三大家（Big-3）都可以提供，即Amazon的AWS（Amazon Web Services）、Microsoft的Azure，以及Google的Google Cloud（更之前稱為GCP，即Google Cloud Platform，2022年改稱Google Cloud）。不僅三大家，其他只要稍具份量的公有雲商都會提供，難與盡數詳列。

進一步的，GPU是用於AI訓練還是推論呢？其實能用於訓練的GPU也就能用於推論，但並不是針對推論工作專精設計的，所以可能算比較慢、功耗用多一點，但NVIDIA除了訓練用也有針對推論用推出晶片，例如T4、A2等。

GPU除了NVIDIA外也有AMD，但AMD GPU目前可用的公有雲服務比較少，Big-3以Azure為主，AMD以Instinct系列的GPU為主，筆者檢視其規格，目前看來仍是以訓練為主並兼具推論，尚無專精於推論的產品，或推論方面改由AMD Vlveo系列為主。除了Azure外，非Big-3也有一些雲端服務商提供AMD GPU的使用，如南韓的KT Cloud。

FPGA與ASIC

接著是FPGA方面，Big-3都提供FPGA的租賃（這裡說的租賃不是把晶片帶回家而後歸還，只是遠端連線使用）使用服務，FPGA在電路特性上以推論加速為主，訓練的效益比較不明顯。

進一步的是ASIC，即完全針對AI加速而開發的晶片，例如Google就自主開發了Cloud TPU晶片，晶片不外賣，只用於自家資料中心，用來給Google相片、Google街景服務標記分類用，但也透過Google Cloud提供租賃服務。Cloud TPU僅一款，未有機房端的推論專用款，事實上Google有針對邊緣運算另推一款Edge TPU，但有外賣，希望裝配在物聯網閘道器內使用，而不是在資料中心。

再來是AWS也自主開發了Inferentia的推論專用加速晶片，之後也推出Trainium的訓練專用晶片，也是不外賣，想使用只能跟AWS租賃使用。

再來是可買到但又可以租賃的，例如Intel Gaudi系列晶片（購併以色列新創Habana Labs取得而後持續發展），目前可以在AWS上租賃使用。值得注意的是，過往Habana Labs是把Gaudi定位為訓練專用晶片，推論專用另有Goya，但目前官網已不見Goya，估計是改在Gaudi上合一發展。Gaudi除了在AWS尚可使用外在德國Genesis Cloud上也即將可以使用（未列於上表）。

另外英國新創Graphcore IPU（Intelligence Processing Unit）也是可以買到，或者是跟Azure租賃使用，不過這項服務去年已經下架，2019年11月上，2022年10月下。

服務下架時，部分報導說是Microsoft對於Graphcore的股權改變所以不再提供服務，但近期Microsoft也推出自己的AI加速專用晶片Maia 100，或許也有部分關連，然更可能是與這三年來的服務市場表現、客戶反應有關。

Microsoft推出Maia 100也象徵一個業界里程碑，至此Big-3都有了自己的AI ASIC晶片，這對其他晶片商恐怕是個打擊，未來想把自己的AI ASIC賣給Big-3而後提供服務，此路線估計將逐漸困難，Big-3必然是優先推行自有晶片的服務。

值得關注的Paperspace、CoreWeave

除了Azure外，非Big-3業者也有提供Graphcore的雲端服務，如Paperspace，不過今年7月知名的雲端業者Digital Ocean或許因為LLM、GAI熱潮而決議加強AI加速雲端服務而購併了Paperspace，目前已屬Digital Ocean，Paperspace提供NVIDIA GPU、Graphcore IPU的雲端服務。

Paperspace by DigitalOcean推出可使用Graphcpre IPU的雲端服務（圖片來源：Paperspace官網）

雖然Big-3是雲端服務的要角，但AI雲端服務方面還有一家也不能忽略（未列於上表中），那就是CoreWeave，該公司與NVIDIA密切合作，提供優異的GPU雲端功能但價格卻很實惠，吸引許多AI新創商使用他們的服務，例如NovelAI、Inflection AI等。

CoreWeave是與NVIDIA密切合作的GPU Cloud服務商，正主打租用HGX H100每小時最低2.23美元（圖片來源：CoreWeave官網）

結語

最後，雖然創客（Maker）可能偏好自立自主，比較喜歡自己擁有運算力，所以會使用Edge AI、TinyML，但其實密集訓練模型時依然可以善用雲端，比較省錢省時間，一些沒有即時性的推論需求也是可以善用，事實上創客許多專案或多或少都已經不離開雲端，深化運用也很自然，期望每個創客都能因此選擇到合用的雲端AI加速服務。

（責任編輯：謝嘉洵。）