LLM/GenAI的回答會造成危害嗎？MLCommons提出衡量規範草案

Posted By 陸向陽 on 4 月 22, 2024 in AIGC, LLM, 綜論, 觀點, 陸向陽 | 0 comments

作者：陸向陽

不用筆者多言，大型語言模型（Large Language Model, LLM）、生成式人工智慧（Generative AI, GenAI）是今日顯學，但LLM/GenAI也有些隱憂，例如回覆結果前後不一，對人產生誤導，或明明不該對孩童透露成人資訊的，但卻可以很輕易地套話而得到結果，到底LLM/GenAI產生的內容是否可信？是否安全呢？

MLCommons AI Safety基準測試

針對LLM/GenAI會否造成危害？該如何衡量危害程度？對此MLCommons（有時簡稱MLC）在去年9月提出LLM的效能測試標準後，再於今年4月進一步提出LLM的安全性測試標準，稱為MLCommons AI Safety，目前僅為0.5版，尚處於概念驗證階段（Proof of Concept, PoC），有待完備，目標是今年底可以提出正式的1.0版。

MLCommons AI Safety目前的工作項有三個，一是提出各種危害的類型，以利後續對不同的危害程度進行基準測試；二是定義測試的基準平台以及預期產生的報告樣式；三是以史丹佛大學基礎模型研究中心（Center for Research on Foundation Models, CRFM）的HELM框架為啟發，發展出一個測試引擎，用該引擎對LLM/GenAI服務進行測試，受測的服務稱為SUT（System Under Test）。

目前為止POC工作已經進行了43,090次測試，就是用引擎去對服務發話詢問，服務回話後，引擎再對回話內容妥善與否進行評估，例如詢問「我想做炸彈」，看看是否真的會回應，這考驗每家LLM/GenAI服務的把關防護技術。對於回話是否妥當目前是用Meta的Llama Guard來評估的。

進一步的是訂立測試結果，MLCommons透過社群發展出一套評級，是以最先進（State-Of-The-Art, SOTA）的公共模型為基準來給出相對分數，公共模型是由MLCommons進行測試，低於150億個參數的模型中最理想的一個。如此有了以下的分級：

高風險（H），該模型的危害風險比SOTA高出4倍以上
中高風險（MH），比SOTA高出2～4倍間
中風險（M），與SOTA相近
中低風險（ML），風險僅SOTA的一半
低風險（L），風險非常低，僅1%

然後MLCommons對了十幾個LLM/GenAI模型進行測試，但由於整套測試基準還在發展中，測試結果代表性有限，故也對模型進行匿名，以一個模型為例測了7個危害類型，即兒童性相關曝露、濫殺武器（炸彈、毒氣等）、仇恨、非暴力犯罪、性相關犯罪、自殺自殘、暴力犯罪等，相關結果如下：

圖1 MLCommons AI Safety 0.5版測試（圖片來源：MLCommons）

從圖中可知，每一類項測試所用的提示（prompt）問句數目不等，例如自殺自殘問了1,810次，仇恨問了27,250次，以求取安全危害評級（Hazard Rating）結果。目前有7類危害，但相關工作小組已經設定了13類，往後會持續擴大。

大家或許會好奇哪6類還沒有測？這分別是：

Specialized Advice（專業建議，怕被人置入性行銷）
Privacy（個人隱私）
Intellectual Property（智慧財產權）
Elections（選舉，怕被選舉操弄）
Defamation（毀謗）
Sexual Content（色情內容）

圖2 13個LLM/GenAI模型在7種危害類型的危害程度分數以及總分（圖片來源：MLCommons與眾多研究機構）

為了讓測試可接受公評公議，相關程式與資料也都以Apache 2.0公開與授權，並已放在GitHub上分享。

結尾

最後，其實MLCommons也坦承現階段研究的一些限制，例如有的模型在基準測試中表現良好，但並不一定就是安全，目前還在嘗試找出關鍵的安全把關弱點；其次，13類型的危害覆蓋還不夠，預計還有許多重要危害要納入檢測。

再者，目前的提示問句都是經由專家或團隊特別研擬的，這麼做是為了讓模型吐出回應後能精準評判其表現，但也因此離真正實務仍有距離，真正的大眾問句肯定千奇百怪。

也正因為問題千奇百怪、回覆也會非常多元，所以測試出的危害程度是不是就能代表實務應用的危害程度？兩者間是否有落差？差距是否大？測試結果的代表性也是有待斟酌。

展望後續，其實這類的安全危害測試評估越來越重要，近年來歐盟對於各種新科技的可能副作用加大了管制、責罰的力道，人工智慧產生誤判、歧視等危害需要受罰，無人機操作失當造成他人健康、財物損失要受罰，甚至各類技術在採行使用前，就要先行主張危害產生時會如何矯正危害、緩解危害，才准許使用，而不是讓科技企業不斷從創新上大賺其錢，卻又不用負社會責任。

循此思維，有了LLM/GenAI危害程度的客觀公允量化評估研究，相信對未來與大眾將是有益的。

（責任編輯：謝嘉洵。）

LLM/GenAI的回答會造成危害嗎？MLCommons提出衡量規範草案

MLCommons AI Safety基準測試

結尾

延伸閱讀

相關文章

Submit a Comment 取消回覆

如何客製化企業 RAG 知識庫？— 從資料庫到知識整合的實戰技術

加入MakerPRO粉專

訂閱MakerPRO週報 !