AI代理到底行不行？IBM Research推出開源基準測試

Posted By MakerPRO編輯部 on 2 月 11, 2025 in AI關鍵技術, 新聞稿 | 0 comments

近年來，生成式AI技術的發展令人矚目，各類AI系統已能夠撰寫詩歌、解決程式設計問題，甚至能夠與使用者進行對話。然而，在企業環境中，這類AI系統的應用仍相對有限，主要原因之一是缺乏客觀標準來衡量其在解決企業IT問題方面的實際成效。

為解決這個問題，IBM Research推出了一套開放源碼基準測試ITBench，旨在提供科學的方式來評估IT自動化代理（AI agents）在企業場景中的效能。目前，企業IT部門面臨著人力資源短缺的挑戰，需處理大量事件管理、合規性監管以及日常IT營運任務，使環境變得比以往更加複雜。生成式AI雖然帶來了新的技術可能性，卻也增加了IT營運管理的難度。

IBM Research指出，過去曾有IT失誤導致嚴重後果的案例，企業若在IT營運中犯錯，往往需要付出高昂的代價。而企業在導入AI系統時，需要建立信任，若沒有衡量標準時，這將變得更加困難。為了幫助企業衡量AI代理的效能，ITBench初期專注於三大領域：

站點可靠性工程（site reliability engineering，SRE）：評估AI代理是否能夠識別系統警報，迅速分析警報來源，並提供解決方案。
合規性評估( compliance assessment)：測試AI代理在法規變更時，是否能夠分析企業IT系統的合規性，並提供適當的建議。
財務運營（FinOps）成本管理：評估AI代理在預算控制方面的能力，例如是否能夠幫助企業在限定的成本範圍內規劃產品開發與推出。

這些基準測試的設計，目標是提供一個開放框架，讓開發者與企業能夠測試AI代理在解決IT問題時的表現與效率。例如，在合規性評測中，AI代理需要解析自然語言撰寫的法規文件，將其轉換為可執行的程式碼，然後檢查IT 系統中的相關程式碼是否符合規範，並提出修正建議。ITBench將根據AI代理的準確性與處理速度進行評分，以確保其能夠有效協助企業解決問題。

ITBench的開發參考了真實企業案例，例如某公司因程式錯誤而導致20%的資料遺失等問題。這些案例顯示，在現今IT基礎架構不斷擴展的情況下，AI工程師對於混合IT環境的熟悉度有限，許多錯誤變得更難察覺。因此，IBM Research希望透過ITBench降低AI代理開發與測試的門檻，使更多開發者與企業能夠客觀評估其 AI 工具的效能。

長期而言，IBM Research的目標不僅是讓AI代理能夠被動回應IT問題，而希望能夠主動發現潛在風險。例如，在程式碼、法律文件或其他數位業務流程中，AI代理可提前檢測可能導致IT營運或合規性問題的風險，幫助企業避免潛在災難。