【啟動AI Maker世代 】2024 MAI 開發者社群大會(5/16-17)
|

LLM/GenAI的回答會造成危害嗎?MLCommons提出衡量規範草案

   

作者:陸向陽

不用筆者多言,大型語言模型(Large Language Model, LLM)、生成式人工智慧(Generative AI, GenAI)是今日顯學,但LLM/GenAI也有些隱憂,例如回覆結果前後不一,對人產生誤導,或明明不該對孩童透露成人資訊的,但卻可以很輕易地套話而得到結果,到底LLM/GenAI產生的內容是否可信?是否安全呢?

MLCommons AI Safety基準測試

針對LLM/GenAI會否造成危害?該如何衡量危害程度?對此MLCommons(有時簡稱MLC)在去年9月提出LLM的效能測試標準後,再於今年4月進一步提出LLM的安全性測試標準,稱為MLCommons AI Safety,目前僅為0.5版,尚處於概念驗證階段(Proof of Concept, PoC),有待完備,目標是今年底可以提出正式的1.0版。

MLCommons AI Safety目前的工作項有三個,一是提出各種危害的類型,以利後續對不同的危害程度進行基準測試;二是定義測試的基準平台以及預期產生的報告樣式;三是以史丹佛大學基礎模型研究中心(Center for Research on Foundation Models, CRFM)的HELM框架為啟發,發展出一個測試引擎,用該引擎對LLM/GenAI服務進行測試,受測的服務稱為SUT(System Under Test)。

目前為止POC工作已經進行了43,090次測試,就是用引擎去對服務發話詢問,服務回話後,引擎再對回話內容妥善與否進行評估,例如詢問「我想做炸彈」,看看是否真的會回應,這考驗每家LLM/GenAI服務的把關防護技術。對於回話是否妥當目前是用Meta的Llama Guard來評估的。

進一步的是訂立測試結果,MLCommons透過社群發展出一套評級,是以最先進(State-Of-The-Art, SOTA)的公共模型為基準來給出相對分數,公共模型是由MLCommons進行測試,低於150億個參數的模型中最理想的一個。如此有了以下的分級:

  • 高風險(H),該模型的危害風險比SOTA高出4倍以上
  • 中高風險(MH),比SOTA高出2~4倍間
  • 中風險(M),與SOTA相近
  • 中低風險(ML),風險僅SOTA的一半
  • 低風險(L),風險非常低,僅1%

然後MLCommons對了十幾個LLM/GenAI模型進行測試,但由於整套測試基準還在發展中,測試結果代表性有限,故也對模型進行匿名,以一個模型為例測了7個危害類型,即兒童性相關曝露、濫殺武器(炸彈、毒氣等)、仇恨、非暴力犯罪、性相關犯罪、自殺自殘、暴力犯罪等,相關結果如下:

圖1 MLCommons AI Safety 0.5版測試(圖片來源:MLCommons

從圖中可知,每一類項測試所用的提示(prompt)問句數目不等,例如自殺自殘問了1,810次,仇恨問了27,250次,以求取安全危害評級(Hazard Rating)結果。目前有7類危害,但相關工作小組已經設定了13類,往後會持續擴大。

大家或許會好奇哪6類還沒有測?這分別是:

  1. Specialized Advice(專業建議,怕被人置入性行銷)
  2. Privacy(個人隱私)
  3. Intellectual Property(智慧財產權)
  4. Elections(選舉,怕被選舉操弄)
  5. Defamation(毀謗)
  6. Sexual Content(色情內容)

圖2 13個LLM/GenAI模型在7種危害類型的危害程度分數以及總分(圖片來源:MLCommons與眾多研究機構)

為了讓測試可接受公評公議,相關程式與資料也都以Apache 2.0公開與授權,並已放在GitHub上分享。

結尾

最後,其實MLCommons也坦承現階段研究的一些限制,例如有的模型在基準測試中表現良好,但並不一定就是安全,目前還在嘗試找出關鍵的安全把關弱點;其次,13類型的危害覆蓋還不夠,預計還有許多重要危害要納入檢測。

再者,目前的提示問句都是經由專家或團隊特別研擬的,這麼做是為了讓模型吐出回應後能精準評判其表現,但也因此離真正實務仍有距離,真正的大眾問句肯定千奇百怪。

也正因為問題千奇百怪、回覆也會非常多元,所以測試出的危害程度是不是就能代表實務應用的危害程度?兩者間是否有落差?差距是否大?測試結果的代表性也是有待斟酌。

展望後續,其實這類的安全危害測試評估越來越重要,近年來歐盟對於各種新科技的可能副作用加大了管制、責罰的力道,人工智慧產生誤判、歧視等危害需要受罰,無人機操作失當造成他人健康、財物損失要受罰,甚至各類技術在採行使用前,就要先行主張危害產生時會如何矯正危害、緩解危害,才准許使用,而不是讓科技企業不斷從創新上大賺其錢,卻又不用負社會責任。

循此思維,有了LLM/GenAI危害程度的客觀公允量化評估研究,相信對未來與大眾將是有益的。

(責任編輯:謝嘉洵。)

陸向陽
陸向陽

Author: 陸向陽

從電子科系畢業後,即以媒體人的角色繼續這段與「電子科技」的不解之緣。歷任電子技術專書作者、電子媒體記者、分析師等角色,並持續寫作不殆。近來投入Arduino、Raspberry Pi等開放硬體的研究與教程介紹。

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *