MLPerf大語言模型、生成式AI測項觀察

Posted By 陸向陽 on 11 月 27, 2024 in AI關鍵技術, LLM, 影像分割, 物件偵測, 特寫, 科普, 評測 | 0 comments

作者：陸向陽

MLPerf（顧名思義Machine Learning Performance）是MLCommons機構訂立出的一系列AI效能標竿測試，包含訓練類、推論類，也依據不同情境再行分類，例如訓練分成訓練或高效能運算（HPC）的訓練，推論也分成資料中心推論、邊緣推論、行動推論與微型推論等。

除此之外又針對AI儲存方面的效能測試標竿（MLPerf Storage），甚至是開始訂立AI安全性方面的標竿（AI Safety，仍處於非正式的0.5版），最新動向更是有AI訓練演算法方面的標竿（AlgoPerf）。

不過近期大眾會關注的，莫過於大型語言模型（LLM）、生成式人工智慧（GenAI）等是否也列入效能標竿測試中，畢竟這是自前年11月熱門至今的技術話題，因此以下本文將對此進行觀察，以了解目前哪些LLM、GenAI已被視為測試基準。

訓練與高效能運算訓練

在訓練方面（嚴格而論應是資料中心規模等級的訓練），4.1版的標竿測試確實加入了LLM、GenAI，LLM方面加入GPT3（非開源）的測試，並搭配C4資料集；LLM微調（finetuning）方面則加入Llama 2 70B測試，搭配的資料集為SCROLLS GovReport。

GenAI方面則加入Stable Diffusionv2的圖像生成模型，搭配的資料集為LAION-400M-filtered。值得一提的也加入自然語言處理（NLP）的BERT-large模型，搭配的資料集是至2020年1月1日為主的維基百科。

至於高效能運算方面的訓練未因為LLM、GenAI熱潮而更動，維持3.0版的4個測項，主要是測試蛋白質折疊的AlphaFold2、量子分子建模的DimeNet++、宇宙學參數預測的CosmoFlow，以及氣候分段的DeepCAM。

資料中心推論

資料中心推論方面，至4.0版時仍未加入任何LLM、GenAI測項，但4.1版開始加入，例如加入Llama 2 70B模型訓練完成後的問答測試，搭配的資料集為OpenOrca；然後是GPT-J 6B模型，搭配資料集為CNN-DailyMail News Text Summarization並測試其歸結（摘錄重點）能力。

更重要的是加入知名新創業者Mistral AI的Mixtral 8x7B模型，測試系統在文字生成上的能力，包含回覆文字答案、產生數學答案、產生程式碼答案等。至於生成圖片上則使用SDXL 1.0（Stable Diffusion XL），搭配資料集COCO-2014。

圖1 MLPerf資料中心推論標竿測試4.1版加入諸多LLM、GenAI相關的測項（圖片來源：MLCommons）

邊緣推論、行動推論、微型推論

在Edge AI的推論方面，其4.0版也都未有LLM、GenAI測項的加入，但4.1版開始加入，不過只有兩個測項，即前述的GPT-J 6B與SDXL 1.0，而沒有Mixtral 8x7B、Llama 2 70B，推測與Edge AI運算力已弱於資料中心有關，或與使用情境有關。

至於行動推論方面，由於運算力更受限，因此其新版只有加入一個LLM、GenAI相關的測項，即Stable Diffusion 1.5的文生圖能力，搭配資料集MS-COCO 2014 captions，前述的LLM模型都不在行動推論上測試，但依然有語言處理相關的Mobile-BERT測試。事實上行動推論的測試幾乎高度集中在視覺（Vision）應用上、影像處理上，合計共7個測項，而語言處理與文生圖僅各測1項。

圖2 在4.1版MLPerf微型推論方面僅加入1項GenAI測項，測試文生圖能力（圖片來源：MLCommons）

而微型推論的TinyML方面，由於運算力更為受限，應用情境也不適合，所以即便LLM、GenAI大熱門，微型推論的測試並未因此改版，維持1.1版，測項依然是4項，主要測試關鍵字發現、視覺喚醒字、影像分類、異常偵測等，都與LLM、GenAI無關。

AI儲存效能測試

由於AI訓練、推論等工作都高度倚賴記憶體、儲存系統，記憶體不足或不夠快，處理核心再強大也會受限，因此有了專門的測項，不過截至目前為止0.5版、1.0版共計僅4個測項，都與LLM、GenAI無直接關係，分別是語言處理測試前述的BERT-large模型、科學方面測試前述的CosmoFlow模型，另外2項則測視覺相關的ResNet50、3D U-Net模型。

結語

由上述可知，確實LLM、GenAI的熱潮已經影響了AI效能測項的發展，特別是資料中心、邊緣運算的影響比較大，但科學方面的高效能運算影響尚未見到，行動則受若干影響，微型也尚未見到影響性。

目前AI安全性的測試還在研擬中，但估計會與LLM、GenAI高度相關，畢竟現在「一本正經胡說八道」、「幻覺」等AI問題明顯，容易造成個人性或社會性的誤導。訓練演算法方面的測項也才起步不久，但裡頭已可見Transformer模型（許多LLM的根基），用其來考驗翻譯相關的應用。

最後，透過各種測項的新設立，已大致可瞭解哪些模型已經被視為LLM、GenAI應用的新指標，GPT、Llama、SD明顯都入列，而測項的更新也讓人更務實評估AI系統的能耐，讓AI應用更普及、更務實。

About
Latest Posts

陸向陽

從電子科系畢業後，即以媒體人的角色繼續這段與「電子科技」的不解之緣。歷任電子技術專書作者、電子媒體記者、分析師等角色，並持續寫作不殆。近來投入Arduino、Raspberry Pi等開放硬體的研究與教程介紹。

MLPerf大語言模型、生成式AI測項觀察

訓練與高效能運算訓練

資料中心推論

邊緣推論、行動推論、微型推論

AI儲存效能測試

結語

Submit a Comment 取消回覆

加入MakerPRO粉專

訂閱MakerPRO週報 !