|

AI代理到底行不行?IBM Research推出開源基準測試

   

近年來,生成式AI技術的發展令人矚目,各類AI系統已能夠撰寫詩歌、解決程式設計問題,甚至能夠與使用者進行對話。然而,在企業環境中,這類AI系統的應用仍相對有限,主要原因之一是缺乏客觀標準來衡量其在解決企業IT問題方面的實際成效。

為解決這個問題,IBM Research推出了一套開放源碼基準測試ITBench,旨在提供科學的方式來評估IT自動化代理(AI agents)在企業場景中的效能。目前,企業IT部門面臨著人力資源短缺的挑戰,需處理大量事件管理、合規性監管以及日常IT營運任務,使環境變得比以往更加複雜。生成式AI雖然帶來了新的技術可能性,卻也增加了IT營運管理的難度。

IBM Research指出,過去曾有IT失誤導致嚴重後果的案例,企業若在IT營運中犯錯,往往需要付出高昂的代價。而企業在導入AI系統時,需要建立信任,若沒有衡量標準時,這將變得更加困難。為了幫助企業衡量AI代理的效能,ITBench初期專注於三大領域:

  1. 站點可靠性工程(site reliability engineering,SRE:評估AI代理是否能夠識別系統警報,迅速分析警報來源,並提供解決方案。
  2. 合規性評估( compliance assessment):測試AI代理在法規變更時,是否能夠分析企業IT系統的合規性,並提供適當的建議。
  3. 財務運營(FinOps)成本管理:評估AI代理在預算控制方面的能力,例如是否能夠幫助企業在限定的成本範圍內規劃產品開發與推出。

這些基準測試的設計,目標是提供一個開放框架,讓開發者與企業能夠測試AI代理在解決IT問題時的表現與效率。例如,在合規性評測中,AI代理需要解析自然語言撰寫的法規文件,將其轉換為可執行的程式碼,然後檢查IT 系統中的相關程式碼是否符合規範,並提出修正建議。ITBench將根據AI代理的準確性與處理速度進行評分,以確保其能夠有效協助企業解決問題。

ITBench的開發參考了真實企業案例,例如某公司因程式錯誤而導致20%的資料遺失等問題。這些案例顯示,在現今IT基礎架構不斷擴展的情況下,AI工程師對於混合IT環境的熟悉度有限,許多錯誤變得更難察覺。因此,IBM Research希望透過ITBench降低AI代理開發與測試的門檻,使更多開發者與企業能夠客觀評估其 AI 工具的效能。

長期而言,IBM Research的目標不僅是讓AI代理能夠被動回應IT問題,而希望能夠主動發現潛在風險。例如,在程式碼、法律文件或其他數位業務流程中,AI代理可提前檢測可能導致IT營運或合規性問題的風險,幫助企業避免潛在災難。

 

 

MakerPRO編輯部
MakerPRO編輯部

Author: MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體,不論是趨勢分析與評論,或創新實作文章,在華文創新創業媒體領域都具有重要的影響力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *