|

以技術角度剖析NVIDIA DIGITS專案

   

作者:陸向陽

NVIDIA的AI桌上型電腦DIGITS專案在今年一月份國際消費性電子展(CES)期間就已經發表,但多數的報導只是單純引述NVIDIA官方所強調的,本文嘗試從更技術的角度來觀察。

首先DIGITS其實是縮寫,全稱是Deep Learning GPU Intelligence Training System,L若改成小寫就很像大寫的i,所以應該是D.l.G.I.T.S。NVIDIA近期似乎喜歡用特殊拼湊方式的專案名稱,例如人形機器人專案GR00T其實是Generalist Robot 00 Technology,00是數字2個0,指第00代(數位邏輯領域習慣用0為開始,次之才是1),乍看以為是2個英文字母O,其實不是。

圖1 外型與大型正規DGX伺服器相仿,但體積大幅縮小的桌上型電腦DIGITS專案(圖片來源:NVIDIA官網)

圖1:外型與大型正規DGX伺服器相仿,但體積大幅縮小的桌上型電腦DIGITS專案(圖片來源:NVIDIA官網)

DIGITS桌上型電腦內的核心是GB10晶片,可以說是一種陽春版的GB200超級晶片,GB200超級晶片嚴格來說是一張板卡,上頭有三個主要晶片,即兩顆Blackwell GPU(B100,功率、時脈提升版稱B200)與一顆Grace CPU(Arm架構)。

其中B100是把多個裸晶(die)封裝在一起,內部主要有兩個GPU裸晶,兩個裸晶緊鄰並用高速網路連成一體,然後再把6顆32GB的HBM3e記憶體裸晶封進去,共計有192GB記憶體。B100跑FP4精度的浮點運算時約7PFlops效能,而GB200超級晶片則為20PFlops(時脈提升,再追加一顆)。

至於Grace CPU裡頭其實有144個Arm Neoverse V2核心、記憶體傳輸頻寬1TB/Sec,Grace CPU與Blackwell GPU間是用NVLink-C2C(Chip-to-Chip)介面連接。

回到前頭,DIGITS內是一顆GB10,從編號數字看遠小於B100、GB200等,這又是怎樣的組合呢?首先它是取一個B100的裸晶,甚至可能是還沒有左右縫合的半邊裸晶,如此效能從7PFlops降到剩1PFlops(可能包含頻率的下調)。

接著把降規的B100與Grace CPU縫合在一起,逢合介面即原本使用的NVLin-C2C,只是從本來主機板上的銅線線箔改成裸晶間的打線,依然是極高速的晶片間傳輸介面。

不僅Blackwell降規,Grace也是降規,正規Grace有144個核心,與Blackwell縫合的版本降成只有20個核心,但這裡的Grace CPU是NVIDIA與聯發科合作開發的,只是晶片編號維持GBxx,更具體而言是10個Cortex-X925核心與10個Cortex-A725核心。(註:有趣的是,GB10也被NVIDIA稱為超級晶片,GB10確實是顆晶片,不是一片板卡。)

至於HBM3e記憶體在GB10上被取消,改在晶片外配置128GB的LPDDR5X記憶體,然後讓GPU、CPU共享同一份記憶體,GPU不再有專屬配置的視訊記憶體,此稱之為一體式記憶體(Unified Memory)或UMA(Unified Memory Architecture)。

進一步的,DIGITS還配有4TB的NVMe固態硬碟、高速有線網路,有線網路的晶片即直接取自NVIDIA的ConnextX(併購自以色列公司Mellanox),ConnextX一般情況是以網卡型態銷售並裝配到一般伺服器內,但推測DIGITS機內空間有限,可能只是把ConnectX晶片改焊接到DIGITS內部主機板上。

以上講述的這些多是極高規的技術晶片,但一部桌上型電腦還需要其他介面的配合,例如USB介面、Wi-Fi介面、Bluetooth介面等,這一塊並非是NVIDIA的強項,推測也是與台灣聯發科合作,用聯發科的晶片來提供USB/Wi-Fi/Bluetooth功能,如此就構成了一部完整的AI桌上型電腦,官方建議零售價3,000美元,五月才會由NVIDIA夥伴發貨。

圖2 DIGITS專案的內部組成(圖片來源:NVIDIA官網)

圖2:DIGITS專案的內部組成(圖片來源:NVIDIA官網)

推測DIGITS專案的產業意涵

從上述也可以瞭解,DIGITS專案不是用來刺激NVIDIA B100/B200/GB200總體晶片用量,讓晶片獲得更多的量價均攤(規模成本)效應,就是用來消化生產良率較差的NVIDIA B100/B200/GB200,或兩者皆是。

畢竟B100/B200/GB200是用台積電(TSMC)最先進的製程工藝打造,光罩成本極高,有必要增加裸晶的用量來均攤成本,同時最新製程技術的晶片其生產良率也最難控制,昂貴的高階晶片若稍有瑕疵就報廢未免可惜,只要壞損程度不大,降規銷售也有助於回收若干成本,這在半導體產業也是行之有年的作法。

當然!推行DIGITS也可以增加ConnectX網路晶片的用量,但也有人建議乾脆把ConnectX網路當成選購,有助於進一步降低電腦單價。

最後,NVIDIA強調DIGITS主要是給專業的AI軟體開發者使用,認為2,000億個參數以下的模型可以在DIGITS上初步開發、微調、推論等。NVIDIA還鼓勵用網路串接兩台DIGITS,如此則可用於微調、推論4,050億個參數的模型。

其他技術細節則包含DIGITS使用NVIDIA官方的Linux作業系統,稱為NVIDIA DGX OS,該作業系統其實根基於Ubuntu Linux,而Ubuntu Linux根基於Debian Linux,這套作業系統可與NVIDIA DGX Cloud無縫接軌,在DIGITS上訓練完成的模型可輕易放上雲端使用。

 

延伸閱讀

 

陸向陽
陸向陽

Author: 陸向陽

從電子科系畢業後,即以媒體人的角色繼續這段與「電子科技」的不解之緣。歷任電子技術專書作者、電子媒體記者、分析師等角色,並持續寫作不殆。近來投入Arduino、Raspberry Pi等開放硬體的研究與教程介紹。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *