近年來,生成式AI技術的發展令人矚目,各類AI系統已能夠撰寫詩歌、解決程式設計問題,甚至能夠與使用者進行對話。然而,在企業環境中,這類AI系統的應用仍相對有限,主要原因之一是缺乏客觀標準來衡量其在解決企業IT問題方面的實際成效。
為解決這個問題,IBM Research推出了一套開放源碼基準測試ITBench,旨在提供科學的方式來評估IT自動化代理(AI agents)在企業場景中的效能。目前,企業IT部門面臨著人力資源短缺的挑戰,需處理大量事件管理、合規性監管以及日常IT營運任務,使環境變得比以往更加複雜。生成式AI雖然帶來了新的技術可能性,卻也增加了IT營運管理的難度。
IBM Research指出,過去曾有IT失誤導致嚴重後果的案例,企業若在IT營運中犯錯,往往需要付出高昂的代價。而企業在導入AI系統時,需要建立信任,若沒有衡量標準時,這將變得更加困難。為了幫助企業衡量AI代理的效能,ITBench初期專注於三大領域:
- 站點可靠性工程(site reliability engineering,SRE):評估AI代理是否能夠識別系統警報,迅速分析警報來源,並提供解決方案。
- 合規性評估( compliance assessment):測試AI代理在法規變更時,是否能夠分析企業IT系統的合規性,並提供適當的建議。
- 財務運營(FinOps)成本管理:評估AI代理在預算控制方面的能力,例如是否能夠幫助企業在限定的成本範圍內規劃產品開發與推出。
這些基準測試的設計,目標是提供一個開放框架,讓開發者與企業能夠測試AI代理在解決IT問題時的表現與效率。例如,在合規性評測中,AI代理需要解析自然語言撰寫的法規文件,將其轉換為可執行的程式碼,然後檢查IT 系統中的相關程式碼是否符合規範,並提出修正建議。ITBench將根據AI代理的準確性與處理速度進行評分,以確保其能夠有效協助企業解決問題。
ITBench的開發參考了真實企業案例,例如某公司因程式錯誤而導致20%的資料遺失等問題。這些案例顯示,在現今IT基礎架構不斷擴展的情況下,AI工程師對於混合IT環境的熟悉度有限,許多錯誤變得更難察覺。因此,IBM Research希望透過ITBench降低AI代理開發與測試的門檻,使更多開發者與企業能夠客觀評估其 AI 工具的效能。
長期而言,IBM Research的目標不僅是讓AI代理能夠被動回應IT問題,而希望能夠主動發現潛在風險。例如,在程式碼、法律文件或其他數位業務流程中,AI代理可提前檢測可能導致IT營運或合規性問題的風險,幫助企業避免潛在災難。
- AI代理到底行不行?IBM Research推出開源基準測試 - 2025/02/11
- 借鏡DeepSeek-R1訓練框架 耐能實現輕量級大語言模型 - 2025/02/10
- 看到DeepSeek就愣住了? 還有上百萬個AI模型等著你! - 2025/02/07