OpenAI公布ChatGPT Images 2.0,能思考、生成多語文字還支援排版

OpenAI本週公布首個整合思考能力的圖片生成模型,並推向所有ChatGPT用戶,提供ChatGPT Images 2.0,不但能生成精美圖片,還能整合多語文字及多變化版面設計,可用於製作漫畫、海報或看板。現在這項功能推向所有ChatGPT方案,包括免費版。

ChatGPT Images 2.0是去年12月ChatGPT Images 1.5後的更新版。它是OpenAI第一個結合思考能力的圖片模型,當(付費版)ChatGPT使用者選擇了思考(Thinking)模式後,Images 2.0會搜尋網路上即時資訊生成圖片、可一次生成多張圖,並重複驗證自己的輸出,它還能處理兼具圖片和文字的複雜任務,尤其是在需要精準、最新資訊,以及一致化及視覺一貫性的場合。

在圖像生成部分,ChatGPT Images 2.0增強了詳細指令遵從、可精準置放物件、生成豐富文字,還能生成多種長寬比例的圖片。ChatGPT Images 2.0可生成精湛繁複的圖片,能確實遵從用戶指令、保留需要的細節,生成過去圖片生成模型無法處理的元素,像是小塊文字、圖示設計、UI元素、繁複構圖及排版,而且都提供2K解析度,它甚至能在單一圖片中提供分鏡圖、或包含多欄位文字及圖表的雜誌設計。

ChatGPT Images 2.0另一特色是多語言支援。在此之前,Images 1.5可支援簡單英文和拉丁語系文字,Image 2.0版則具備多語理解,不但能生成非拉丁語文字,像是中文、日、韓、北印度語、孟加拉語,還能生成流暢文字。它不只是翻譯一二個標籤,而是融入設計的文字,因此能生成海報、手寫稿、漫畫、廣告或其他圖文並重的圖像。

OpenAI表示,結合推理模型和視覺理解的ChatGPT Images 2.0不只是生成圖像,更是策略性設計工具,可協助使用者將想法轉為真實而用於分享、教學或進階設計的成果。

現在,所有ChatGPT用戶、Codex和API都能獲得使用ChatGPT Images 2.0。不過根據VentureBeat報導,免費版用戶只能用最基本的ImageGen模型,Pro及Plus方案用戶才能享用Thinking功能。而Pro方案還可以再獲得ImageGen Pro模型。

本工具推出不久前,Anthropic公布了可用於產品設計圖、原型、簡報、一頁式簡報(one-pager)等文件製作的Claude Design。