近年來,生成式AI技術的發展令人矚目,各類AI系統已能夠撰寫詩歌、解決程式設計問題,甚至能夠與使用者進行對話。然而,在企業環境中,這類AI系統的應用仍相對有限,主要原因之一是缺乏客觀標準來衡量其在解決企業IT問題方面的實際成效。
為解決這個問題,IBM Research推出了一套開放源碼基準測試ITBench,旨在提供科學的方式來評估IT自動化代理(AI agents)在企業場景中的效能。目前,企業IT部門面臨著人力資源短缺的挑戰,需處理大量事件管理、合規性監管以及日常IT營運任務,使環境變得比以往更加複雜。生成式AI雖然帶來了新的技術可能性,卻也增加了IT營運管理的難度。
IBM Research指出,過去曾有IT失誤導致嚴重後果的案例,企業若在IT營運中犯錯,往往需要付出高昂的代價。而企業在導入AI系統時,需要建立信任,若沒有衡量標準時,這將變得更加困難。為了幫助企業衡量AI代理的效能,ITBench初期專注於三大領域:
- 站點可靠性工程(site reliability engineering,SRE):評估AI代理是否能夠識別系統警報,迅速分析警報來源,並提供解決方案。
- 合規性評估( compliance assessment):測試AI代理在法規變更時,是否能夠分析企業IT系統的合規性,並提供適當的建議。
- 財務運營(FinOps)成本管理:評估AI代理在預算控制方面的能力,例如是否能夠幫助企業在限定的成本範圍內規劃產品開發與推出。
這些基準測試的設計,目標是提供一個開放框架,讓開發者與企業能夠測試AI代理在解決IT問題時的表現與效率。例如,在合規性評測中,AI代理需要解析自然語言撰寫的法規文件,將其轉換為可執行的程式碼,然後檢查IT 系統中的相關程式碼是否符合規範,並提出修正建議。ITBench將根據AI代理的準確性與處理速度進行評分,以確保其能夠有效協助企業解決問題。
ITBench的開發參考了真實企業案例,例如某公司因程式錯誤而導致20%的資料遺失等問題。這些案例顯示,在現今IT基礎架構不斷擴展的情況下,AI工程師對於混合IT環境的熟悉度有限,許多錯誤變得更難察覺。因此,IBM Research希望透過ITBench降低AI代理開發與測試的門檻,使更多開發者與企業能夠客觀評估其 AI 工具的效能。
長期而言,IBM Research的目標不僅是讓AI代理能夠被動回應IT問題,而希望能夠主動發現潛在風險。例如,在程式碼、法律文件或其他數位業務流程中,AI代理可提前檢測可能導致IT營運或合規性問題的風險,幫助企業避免潛在災難。
- 想打造輕量、客製化、高性能的 AI 邊緣系統?Yocto Project是不錯選擇 - 2025/04/17
- 擴充能力再強化 群聯升級邊緣AI訓練與推論解決方案 - 2025/04/16
- 讓低功耗行動AI落地!OpenMV推 AI 相機模組 - 2025/04/15
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!