OpenAI公布GPT-5.5 能力強大向超級App邁進

本週才剛公布設計模型ChatGPT Images 2.0,OpenAI(4/23)昨日又公布基礎語言模型GPT-5.5,理解、分析能力更強,能支援處理混亂多步驟任務、不減速度,也更省成本,能協助代理式程式撰寫、知識工作者、及早期科學研究。

GPT-5.5號稱是OpenAI最聰明最直覺的模型,並增強電腦工具使用能力,以協助處理「真正的工作」。GPT-5.5綜合撰寫程式與除錯、在網路上研究、分析資料、製作文件和試算表、操作軟體、使用工具的能力,直到完成任務。使用者可丟給它一項千頭萬緒、多步驟的任務,交由它規劃、使用工具、檢查,一步步釐清頭緒向前推進。這些能力特別適合代理式程式撰寫、電腦使用及早期科學研究。

另一方面OpenAI宣稱,雖然一般來說模型更大速度會變慢,但即使GPT-5.5能力更強大,實際使用時,每token的延遲性表現並不低於GPT-5.4。而且在相同Codex任務中,GPT-5.5使用的token還少於GPT-5.4,意味它同時提高了能力和效率。

GPT-5.5已經部署到Plus、Pro、Business及Enterprise方案用戶的ChatGPT和Codex。Business、Enterprise用戶還可經由ChatGPT使用GPT-5.5 Pro版本。很快OpenAI會將GPT-5.5及GPT-5.5 Pro部署到API。

測試結果

根據OpenAI官方發布的第三方標竿測試資料,GPT-5.5在核心的通用智能方面,GPT-5.5在ARC-AGI-2測試中達到了85.0%,於科學推理測試GPQA Diamond中獲得93.6%的高分,顯示其在處理高度專業化與學術性問題上的能力。

在程式撰寫能力上,根據測試複雜指令行工作流程的Terminal-Bench 2.0、評估解決GitHub問題能力的SWE-Bench Pro及OpenAI內部長期編程任務的Expert-SWE等標竿測試上,GPT-5.5都超越GPT-5.4,且使用更少token。

圖片來源/OpenAI

在知識工作能力上,在Codex環境下GPT-5.5在產生文件、試算表和投影片簡報方面優於GPT-5.4。在電腦操作技巧上,GPT-5.5展現理解螢幕內容、點擊、打字、操作介面,並精準地切換工具的能力。此外,該模型在GDPval知識工作測試中以84.9%的得分領先於GPT-5.4、或是對手模型Claude 4.7及Gemini 3.1 Pro。

在特定領域的知識工作能力上,GPT-5.5雖然在安全與醫療問答測試HealthBench在「困難專業題」有限,但在科學研究GeneBench顯著優於GPT-5.4,在BixBench:已達公開模型最佳級別。法律/專業任務的BigLaw Bench測試得分達91.7%,已達「接近專業助手」等級。

OpenAI強調模型的安全性,經過內外部安全演練團隊測試其進階網路安全和生物學能力,並由近200家早期試用的合作夥伴獲取回饋意見。