作者:陸向陽
不用筆者多言,大型語言模型(Large Language Model, LLM)、生成式人工智慧(Generative AI, GenAI)是今日顯學,但LLM/GenAI也有些隱憂,例如回覆結果前後不一,對人產生誤導,或明明不該對孩童透露成人資訊的,但卻可以很輕易地套話而得到結果,到底LLM/GenAI產生的內容是否可信?是否安全呢?
MLCommons AI Safety基準測試
針對LLM/GenAI會否造成危害?該如何衡量危害程度?對此MLCommons(有時簡稱MLC)在去年9月提出LLM的效能測試標準後,再於今年4月進一步提出LLM的安全性測試標準,稱為MLCommons AI Safety,目前僅為0.5版,尚處於概念驗證階段(Proof of Concept, PoC),有待完備,目標是今年底可以提出正式的1.0版。
MLCommons AI Safety目前的工作項有三個,一是提出各種危害的類型,以利後續對不同的危害程度進行基準測試;二是定義測試的基準平台以及預期產生的報告樣式;三是以史丹佛大學基礎模型研究中心(Center for Research on Foundation Models, CRFM)的HELM框架為啟發,發展出一個測試引擎,用該引擎對LLM/GenAI服務進行測試,受測的服務稱為SUT(System Under Test)。
目前為止POC工作已經進行了43,090次測試,就是用引擎去對服務發話詢問,服務回話後,引擎再對回話內容妥善與否進行評估,例如詢問「我想做炸彈」,看看是否真的會回應,這考驗每家LLM/GenAI服務的把關防護技術。對於回話是否妥當目前是用Meta的Llama Guard來評估的。
進一步的是訂立測試結果,MLCommons透過社群發展出一套評級,是以最先進(State-Of-The-Art, SOTA)的公共模型為基準來給出相對分數,公共模型是由MLCommons進行測試,低於150億個參數的模型中最理想的一個。如此有了以下的分級:
- 高風險(H),該模型的危害風險比SOTA高出4倍以上
- 中高風險(MH),比SOTA高出2~4倍間
- 中風險(M),與SOTA相近
- 中低風險(ML),風險僅SOTA的一半
- 低風險(L),風險非常低,僅1%
然後MLCommons對了十幾個LLM/GenAI模型進行測試,但由於整套測試基準還在發展中,測試結果代表性有限,故也對模型進行匿名,以一個模型為例測了7個危害類型,即兒童性相關曝露、濫殺武器(炸彈、毒氣等)、仇恨、非暴力犯罪、性相關犯罪、自殺自殘、暴力犯罪等,相關結果如下:
從圖中可知,每一類項測試所用的提示(prompt)問句數目不等,例如自殺自殘問了1,810次,仇恨問了27,250次,以求取安全危害評級(Hazard Rating)結果。目前有7類危害,但相關工作小組已經設定了13類,往後會持續擴大。
大家或許會好奇哪6類還沒有測?這分別是:
- Specialized Advice(專業建議,怕被人置入性行銷)
- Privacy(個人隱私)
- Intellectual Property(智慧財產權)
- Elections(選舉,怕被選舉操弄)
- Defamation(毀謗)
- Sexual Content(色情內容)
為了讓測試可接受公評公議,相關程式與資料也都以Apache 2.0公開與授權,並已放在GitHub上分享。
結尾
最後,其實MLCommons也坦承現階段研究的一些限制,例如有的模型在基準測試中表現良好,但並不一定就是安全,目前還在嘗試找出關鍵的安全把關弱點;其次,13類型的危害覆蓋還不夠,預計還有許多重要危害要納入檢測。
再者,目前的提示問句都是經由專家或團隊特別研擬的,這麼做是為了讓模型吐出回應後能精準評判其表現,但也因此離真正實務仍有距離,真正的大眾問句肯定千奇百怪。
也正因為問題千奇百怪、回覆也會非常多元,所以測試出的危害程度是不是就能代表實務應用的危害程度?兩者間是否有落差?差距是否大?測試結果的代表性也是有待斟酌。
展望後續,其實這類的安全危害測試評估越來越重要,近年來歐盟對於各種新科技的可能副作用加大了管制、責罰的力道,人工智慧產生誤判、歧視等危害需要受罰,無人機操作失當造成他人健康、財物損失要受罰,甚至各類技術在採行使用前,就要先行主張危害產生時會如何矯正危害、緩解危害,才准許使用,而不是讓科技企業不斷從創新上大賺其錢,卻又不用負社會責任。
循此思維,有了LLM/GenAI危害程度的客觀公允量化評估研究,相信對未來與大眾將是有益的。
(責任編輯:謝嘉洵。)
- Sony強力加持!樹莓派發表專屬AI攝影機 - 2024/10/28
- 【Qualcomm Inside】12TOPS Edge AI單板RUBIK Pi規格剖析 - 2024/10/20
- TinyML潛力股!MicroFlow挑戰TensorFlow Lite for Microcontrollers - 2024/10/15