Artificial Analysis與IBM推出ITBench-AA,先進AI模型企業IT維運任務得分仍不到5成

圖片來源: 

Artificial Analysis

AI模型評測業者Artificial Analysis與科技大廠IBM推出企業IT任務基準測試ITBench-AA,首波聚焦網站可靠性工程(Site Reliability Engineering,SRE)情境,針對Kubernetes容器叢集事件,評估AI代理是否能透過日誌、指標、追蹤資料與系統拓撲,判斷造成服務異常的根本原因。ITBench-AA結果顯示,即使是目前先進AI模型,在這類企業IT維運任務的最高得分仍低於50%。

ITBench-AA是Artificial Analysis與IBM合作開發的新系列AI模型評測項目,其底層資料集由IBM軟體創新實驗室(IBM Software Innovation Lab)建立,並納入IBM在企業IT維運與事件處理上的經驗。雙方表示,這項評測先從SRE任務開始,後續將擴展到財務營運(FinOps)與資訊安全長(CISO)相關情境。

首波ITBench-AA SRE共包含59項任務,其中40項為公開任務,19項為未公開的保留測試任務。每項任務都提供一份Kubernetes事件快照(incident snapshot),內容涵蓋警示(alerts)、事件(events)、追蹤資料、效能指標、日誌與應用程式拓撲。受測模型必須從這些資料中,找出導致事件的最小且彼此獨立的Kubernetes根本原因實體,例如Deployment、Service或Pod等叢集資源。

ITBench-AA採用Artificial Analysis開源的Stirrup參考框架。Stirrup是一套讓AI代理檢查離線Kubernetes事件快照,並輸出結構化診斷結果的測試環境。模型可透過Shell存取沙箱檔案系統中的事件資料,每項任務最多可執行100個回合,並重複測試3次。評分方式採完整召回下的平均精確率,也就是模型必須先找齊所有標準答案中的根本原因;若漏掉任何一項,該次測試即得0分,若全部找出,則再依其提交結果中真正屬於根本原因的比例計分。

圖片來源/Artificial Analysis

ITBench-AA SRE評測結果顯示,Claude Opus 4.7以47%得分居首,其次為GPT-5.5的46%,以及Qwen3.7 Max的42%。在開放權重模型方面,GLM-5.1以40%得分領先,DeepSeek V4 Pro為38%,Gemma 4 31B為37%。Artificial Analysis指出,所有先進AI模型的得分皆低於50%,也反映現階段AI代理面對複雜的企業IT維運事件時,仍不容易準確判斷真正造成故障的根本原因。

評測結果也顯示,AI代理調查步驟愈多,不一定能提高判斷準確度。GPT-5.5平均每項任務使用31個回合,得分46%;Google Gemini 3.1 Pro Preview平均使用83個回合,得分30%。Artificial Analysis認為,其中,發生過度調查(over-investigate)狀況的模型,容易把用來觸發故障的上游機制或事件發生時同時出現的症狀,誤判為真正根本原因,而將不相關項目納入答案。

ITBench-AA也比較各模型執行每項任務的平均成本。Artificial Analysis指出,Gemma 4 31B得分37%,每項任務成本為0.14美元,在分數與成本上都優於Gemini 3.1 Pro Preview,後者得分30%、每項任務成本為2.23美元。GLM-5.1得分40%,每項任務成本為1.23美元,分數與Gemini 3.5 Flash相當,但成本低於Gemini 3.5 Flash的1.70美元。Claude Opus 4.7以47%得分位居第一,但每項任務成本為5.38美元,也是這次比較中成本最高的模型。