|

AIEC語言模型評測結果:Gemini 2.5 Flash最具「台灣價值觀」

   

由數位發展部旗下數位產業署與國家資通安全研究院、工研院合作設立的AI產品與系統評測中心(Artificial Intelligence Evaluation Center,以下簡稱AIEC)日前公布語言模型基準評測結果,期能推動我國AI在地化評測與第三方驗證,強化產業AI信任發展。本次共評測42項語言模型,可以觀察到由國內開發的TAIDE (Gemma-3-TAIDE-12b)在小模型(13b以下)中表現名列前茅,比所使用之原基礎模型Google (Gemma-3-12b-it)表現更佳,展現台灣AI研發實力。

此外在大型AI模型(13b以上)中,則以OpenAI GPT-5整體表現最佳,其中Google Gemini 2.5 Flash在「台灣價值觀」的評測上表現優異,顯示其對台灣主流價值觀具備較高的理解與對應能力。另AIEC外也觀察到,部分中國語言模型在「台灣價值觀」評測項目也表現不錯,研判可能其模型所使用的「蒸餾技術」,係以歐美基礎模型的輸出作為訓練資料。 整體而言,部分歐美語言模型如果沒有使用到台灣繁體中文語料進行訓練,在「台灣價值觀」的評測上表現較差,此突顯推動本土化語料建置之重要性。

本次AIEC的評測依語言模型規模進行系統性檢測國內外模型表現,除採用「高中學測國文科」及「高中學測社會科」指標外,更納入「台灣價值觀」評測指標,以符合國際AI主權發展趨勢,並作為未來建構在地模型或調校國際模型的重要基準。數位發展部積極推動台灣主權AI語料庫,提供具在地語境與本土價值的繁體中文資料,作為語言模型訓練的重要基礎,確保AI發展符合台灣社會價值與語言文化。AIEC並將廣泛徵求各界專家提供評測題目,經審查後,將有機會納入未來的評測題庫。

AI評測中心之目標為建立國內AI產品與系統評測體系,為國內的AI產品與系統提供評測服務,並藉由研究包含NIST、ISO及歐盟等國際AI規範內容,建立包括安全性(Safety) 、可解釋性(Explainability)、韌性(Resiliency) 、公平性(Fairness)、準確性(Accuracy)、透明性(Transparency)、當責性(Accountability)、可靠性(Reliability)、隱私(Privacy) 、資安(Security) 等10個評測項目。AIEC未來將針對不同產品、系統與應用領域,持續推動國內自行研發AI評測工具,同時對接國際評測方法、規範或標準,強化我國AI產品的市場適用性與全球化發展,以實現安全、穩健與可信賴的AI評測體系。

(無圖片)

 

 

 

MakerPRO編輯部

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體,不論是趨勢分析與評論,或創新實作文章,在華文創新創業媒體領域都具有重要的影響力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *