Artificial Analysis與IBM推出ITBench-AA，先進AI模型企業IT維運任務得分仍不到5成

圖片來源:

Artificial Analysis

AI模型評測業者Artificial Analysis與科技大廠IBM推出企業IT任務基準測試ITBench-AA，首波聚焦網站可靠性工程（Site Reliability Engineering，SRE）情境，針對Kubernetes容器叢集事件，評估AI代理是否能透過日誌、指標、追蹤資料與系統拓撲，判斷造成服務異常的根本原因。ITBench-AA結果顯示，即使是目前先進AI模型，在這類企業IT維運任務的最高得分仍低於50%。

ITBench-AA是Artificial Analysis與IBM合作開發的新系列AI模型評測項目，其底層資料集由IBM軟體創新實驗室（IBM Software Innovation Lab）建立，並納入IBM在企業IT維運與事件處理上的經驗。雙方表示，這項評測先從SRE任務開始，後續將擴展到財務營運（FinOps）與資訊安全長（CISO）相關情境。

首波ITBench-AA SRE共包含59項任務，其中40項為公開任務，19項為未公開的保留測試任務。每項任務都提供一份Kubernetes事件快照（incident snapshot），內容涵蓋警示（alerts）、事件（events）、追蹤資料、效能指標、日誌與應用程式拓撲。受測模型必須從這些資料中，找出導致事件的最小且彼此獨立的Kubernetes根本原因實體，例如Deployment、Service或Pod等叢集資源。

ITBench-AA採用Artificial Analysis開源的Stirrup參考框架。Stirrup是一套讓AI代理檢查離線Kubernetes事件快照，並輸出結構化診斷結果的測試環境。模型可透過Shell存取沙箱檔案系統中的事件資料，每項任務最多可執行100個回合，並重複測試3次。評分方式採完整召回下的平均精確率，也就是模型必須先找齊所有標準答案中的根本原因；若漏掉任何一項，該次測試即得0分，若全部找出，則再依其提交結果中真正屬於根本原因的比例計分。

圖片來源/Artificial Analysis

ITBench-AA SRE評測結果顯示，Claude Opus 4.7以47%得分居首，其次為GPT-5.5的46%，以及Qwen3.7 Max的42%。在開放權重模型方面，GLM-5.1以40%得分領先，DeepSeek V4 Pro為38%，Gemma 4 31B為37%。Artificial Analysis指出，所有先進AI模型的得分皆低於50%，也反映現階段AI代理面對複雜的企業IT維運事件時，仍不容易準確判斷真正造成故障的根本原因。

評測結果也顯示，AI代理調查步驟愈多，不一定能提高判斷準確度。GPT-5.5平均每項任務使用31個回合，得分46%；Google Gemini 3.1 Pro Preview平均使用83個回合，得分30%。Artificial Analysis認為，其中，發生過度調查（over-investigate）狀況的模型，容易把用來觸發故障的上游機制或事件發生時同時出現的症狀，誤判為真正根本原因，而將不相關項目納入答案。

ITBench-AA也比較各模型執行每項任務的平均成本。Artificial Analysis指出，Gemma 4 31B得分37%，每項任務成本為0.14美元，在分數與成本上都優於Gemini 3.1 Pro Preview，後者得分30%、每項任務成本為2.23美元。GLM-5.1得分40%，每項任務成本為1.23美元，分數與Gemini 3.5 Flash相當，但成本低於Gemini 3.5 Flash的1.70美元。Claude Opus 4.7以47%得分位居第一，但每項任務成本為5.38美元，也是這次比較中成本最高的模型。

Artificial Analysis與IBM推出ITBench-AA，先進AI模型企業IT維運任務得分仍不到5成

相關文章

Adobe修補12款產品漏洞，ColdFusion與Commerce更新優先度最高

聚焦自主AI代理交易，FIDO聯盟啟動Agentic Commerce標準制定，OpenAI亦加入理事會推動AI代理驗證

微軟7月例行更新修補Exchange多項高風險漏洞，涉及偽冒、權限提升與遠端執行程式碼

偽裝Nvidia軟體散布的新型遠端木馬現蹤，LabubaRAT可控制Windows主機