作者:陸向陽
MLPerf(顧名思義Machine Learning Performance)是MLCommons機構訂立出的一系列AI效能標竿測試,包含訓練類、推論類,也依據不同情境再行分類,例如訓練分成訓練或高效能運算(HPC)的訓練,推論也分成資料中心推論、邊緣推論、行動推論與微型推論等。
除此之外又針對AI儲存方面的效能測試標竿(MLPerf Storage),甚至是開始訂立AI安全性方面的標竿(AI Safety,仍處於非正式的0.5版),最新動向更是有AI訓練演算法方面的標竿(AlgoPerf)。
不過近期大眾會關注的,莫過於大型語言模型(LLM)、生成式人工智慧(GenAI)等是否也列入效能標竿測試中,畢竟這是自前年11月熱門至今的技術話題,因此以下本文將對此進行觀察,以了解目前哪些LLM、GenAI已被視為測試基準。
訓練與高效能運算訓練
在訓練方面(嚴格而論應是資料中心規模等級的訓練),4.1版的標竿測試確實加入了LLM、GenAI,LLM方面加入GPT3(非開源)的測試,並搭配C4資料集;LLM微調(finetuning)方面則加入Llama 2 70B測試,搭配的資料集為SCROLLS GovReport。
GenAI方面則加入Stable Diffusionv2的圖像生成模型,搭配的資料集為LAION-400M-filtered。值得一提的也加入自然語言處理(NLP)的BERT-large模型,搭配的資料集是至2020年1月1日為主的維基百科。
至於高效能運算方面的訓練未因為LLM、GenAI熱潮而更動,維持3.0版的4個測項,主要是測試蛋白質折疊的AlphaFold2、量子分子建模的DimeNet++、宇宙學參數預測的CosmoFlow,以及氣候分段的DeepCAM。
資料中心推論
資料中心推論方面,至4.0版時仍未加入任何LLM、GenAI測項,但4.1版開始加入,例如加入Llama 2 70B模型訓練完成後的問答測試,搭配的資料集為OpenOrca;然後是GPT-J 6B模型,搭配資料集為CNN-DailyMail News Text Summarization並測試其歸結(摘錄重點)能力。
更重要的是加入知名新創業者Mistral AI的Mixtral 8x7B模型,測試系統在文字生成上的能力,包含回覆文字答案、產生數學答案、產生程式碼答案等。至於生成圖片上則使用SDXL 1.0(Stable Diffusion XL),搭配資料集COCO-2014。
邊緣推論、行動推論、微型推論
在Edge AI的推論方面,其4.0版也都未有LLM、GenAI測項的加入,但4.1版開始加入,不過只有兩個測項,即前述的GPT-J 6B與SDXL 1.0,而沒有Mixtral 8x7B、Llama 2 70B,推測與Edge AI運算力已弱於資料中心有關,或與使用情境有關。
至於行動推論方面,由於運算力更受限,因此其新版只有加入一個LLM、GenAI相關的測項,即Stable Diffusion 1.5的文生圖能力,搭配資料集MS-COCO 2014 captions,前述的LLM模型都不在行動推論上測試,但依然有語言處理相關的Mobile-BERT測試。事實上行動推論的測試幾乎高度集中在視覺(Vision)應用上、影像處理上,合計共7個測項,而語言處理與文生圖僅各測1項。
而微型推論的TinyML方面,由於運算力更為受限,應用情境也不適合,所以即便LLM、GenAI大熱門,微型推論的測試並未因此改版,維持1.1版,測項依然是4項,主要測試關鍵字發現、視覺喚醒字、影像分類、異常偵測等,都與LLM、GenAI無關。
AI儲存效能測試
由於AI訓練、推論等工作都高度倚賴記憶體、儲存系統,記憶體不足或不夠快,處理核心再強大也會受限,因此有了專門的測項,不過截至目前為止0.5版、1.0版共計僅4個測項,都與LLM、GenAI無直接關係,分別是語言處理測試前述的BERT-large模型、科學方面測試前述的CosmoFlow模型,另外2項則測視覺相關的ResNet50、3D U-Net模型。
結語
由上述可知,確實LLM、GenAI的熱潮已經影響了AI效能測項的發展,特別是資料中心、邊緣運算的影響比較大,但科學方面的高效能運算影響尚未見到,行動則受若干影響,微型也尚未見到影響性。
目前AI安全性的測試還在研擬中,但估計會與LLM、GenAI高度相關,畢竟現在「一本正經胡說八道」、「幻覺」等AI問題明顯,容易造成個人性或社會性的誤導。訓練演算法方面的測項也才起步不久,但裡頭已可見Transformer模型(許多LLM的根基),用其來考驗翻譯相關的應用。
最後,透過各種測項的新設立,已大致可瞭解哪些模型已經被視為LLM、GenAI應用的新指標,GPT、Llama、SD明顯都入列,而測項的更新也讓人更務實評估AI系統的能耐,讓AI應用更普及、更務實。
- MLPerf大語言模型、生成式AI測項觀察 - 2024/11/27
- Sony強力加持!樹莓派發表專屬AI攝影機 - 2024/10/28
- 【Qualcomm Inside】12TOPS Edge AI單板RUBIK Pi規格剖析 - 2024/10/20