OpenAI公布GPT-5.5 能力強大向超級App邁進

本週才剛公布設計模型ChatGPT Images 2.0，OpenAI（4/23）昨日又公布基礎語言模型GPT-5.5，理解、分析能力更強，能支援處理混亂多步驟任務、不減速度，也更省成本，能協助代理式程式撰寫、知識工作者、及早期科學研究。

GPT-5.5號稱是OpenAI最聰明最直覺的模型，並增強電腦工具使用能力，以協助處理「真正的工作」。GPT-5.5綜合撰寫程式與除錯、在網路上研究、分析資料、製作文件和試算表、操作軟體、使用工具的能力，直到完成任務。使用者可丟給它一項千頭萬緒、多步驟的任務，交由它規劃、使用工具、檢查，一步步釐清頭緒向前推進。這些能力特別適合代理式程式撰寫、電腦使用及早期科學研究。

另一方面OpenAI宣稱，雖然一般來說模型更大速度會變慢，但即使GPT-5.5能力更強大，實際使用時，每token的延遲性表現並不低於GPT-5.4。而且在相同Codex任務中，GPT-5.5使用的token還少於GPT-5.4，意味它同時提高了能力和效率。

GPT-5.5已經部署到Plus、Pro、Business及Enterprise方案用戶的ChatGPT和Codex。Business、Enterprise用戶還可經由ChatGPT使用GPT-5.5 Pro版本。很快OpenAI會將GPT-5.5及GPT-5.5 Pro部署到API。

測試結果

根據OpenAI官方發布的第三方標竿測試資料，GPT-5.5在核心的通用智能方面，GPT-5.5在ARC-AGI-2測試中達到了85.0%，於科學推理測試GPQA Diamond中獲得93.6%的高分，顯示其在處理高度專業化與學術性問題上的能力。

在程式撰寫能力上，根據測試複雜指令行工作流程的Terminal-Bench 2.0、評估解決GitHub問題能力的SWE-Bench Pro及OpenAI內部長期編程任務的Expert-SWE等標竿測試上，GPT-5.5都超越GPT-5.4，且使用更少token。

圖片來源／OpenAI

在知識工作能力上，在Codex環境下GPT-5.5在產生文件、試算表和投影片簡報方面優於GPT-5.4。在電腦操作技巧上，GPT-5.5展現理解螢幕內容、點擊、打字、操作介面，並精準地切換工具的能力。此外，該模型在GDPval知識工作測試中以84.9%的得分領先於GPT-5.4、或是對手模型Claude 4.7及Gemini 3.1 Pro。

在特定領域的知識工作能力上，GPT-5.5雖然在安全與醫療問答測試HealthBench在「困難專業題」有限，但在科學研究GeneBench顯著優於GPT-5.4，在BixBench：已達公開模型最佳級別。法律/專業任務的BigLaw Bench測試得分達91.7%，已達「接近專業助手」等級。

OpenAI強調模型的安全性，經過內外部安全演練團隊測試其進階網路安全和生物學能力，並由近200家早期試用的合作夥伴獲取回饋意見。

OpenAI公布GPT-5.5 能力強大向超級App邁進

相關文章

FIFA平臺後端漏洞能讓駭客免費播放世界盃賽事、置換影像、修改比分

惡意瀏覽器擴充套件竊取AI對話內容再現新案例，近9萬名用戶受影響

【資安日報】6月17日，歐洲理事會驚傳遭ShinyHunters入侵

Google發布Chrome 149穩定版更新，修補33項安全問題