媒體報導
ARC-AGI-3互動推理基準上線,人類可全解但主流AI得分卻不到1%
ARC Prize基金會發布ARC-AGI系列第一個互動式推理基準ARC-AGI-3,和前兩代以靜態題目為主的設計不同,ARC-AGI-3改以陌生的回合制環境,測試AI代理系統在互動過程中的探索、判斷目標、建立環境模型與規畫行動能力。官方指出,ARC-AGI-3所有環境都已驗證可由人類完整解出,但截至2026年3月,現階段主要的AI系統在該基準上的整體分數仍低於1%。