OpenAI發布三款Realtime API語音模型，將GPT-5等級推理帶進即時語音互動

OpenAI發布三款可透過Realtime API使用的新音訊模型，分別是GPT-Realtime-2、GPT-Realtime-Translate與GPT-Realtime-Whisper，讓開發者建立可即時對話、翻譯與轉錄的語音應用。其中GPT-Realtime-2是OpenAI所稱具GPT-5等級推理能力的語音模型，主要用於讓語音助理在對話中理解使用者需求、保留前後脈絡，並在需要時呼叫工具完成工作。

GPT-Realtime-2針對即時互動加入多項功能，開發者可啟用Preambles功能，讓模型在主要回覆前先以短句告知使用者正在處理請求，例如「我查一下」或「請稍等，我確認一下」，避免語音服務在等待工具回應時顯得中斷。還支援同時呼叫多個工具，例如查詢行事曆或查找資訊，並能用語音說明正在執行的動作。OpenAI表示，這一代模型對專有名詞、醫療等領域詞彙，以及不同語氣的掌握也有所改善，長對話可使用的上下文長度也從3.2萬提高到12.8萬。

根據OpenAI公布的模型評測結果，GPT-Realtime-2在Big Bench Audio音訊智慧評測中，以高推理等級取得96.6%準確率，高於GPT-Realtime-1.5的81.4%，而在Audio MultiChallenge語音多輪對話指令遵循評測中，GPT-Realtime-2以xhigh推理等級取得48.5%平均通過率，高於GPT-Realtime-1.5的34.7%。

另外兩款模型則分別處理翻譯與轉錄，GPT-Realtime-Translate支援70多種輸入語言，可翻譯成13種輸出語言，適用於客服、跨境銷售、教育、活動、媒體與創作者平臺。GPT-Realtime-Whisper則是串流語音轉文字模型，可在說話同時產生文字紀錄，適用於即時字幕、會議紀錄、課堂、廣播與客服後續整理。

三款模型已可透過即時語音API使用，價格方面，GPT-Realtime-2音訊輸入價格為每100萬個音訊輸入Token 32美元，快取輸入Token為0.40美元，音訊輸出Token為64美元，GPT-Realtime-Translate為每分鐘0.034美元，GPT-Realtime-Whisper為每分鐘0.017美元。OpenAI也表示，Realtime API包含多層防護機制，並在Realtime API工作階段使用主動分類器，開發者應讓終端使用者知道自己正在與AI互動，除非使用情境已經明確可辨識。

OpenAI發布三款Realtime API語音模型，將GPT-5等級推理帶進即時語音互動

相關文章

GitHub內部儲存庫遭未授權存取，官方稱客戶資料暫未受影響

知名AI研究人員Andrej Karpathy加入Anthropic

微軟修改Edge瀏覽器密碼管理機制，避免開機即載入明文密碼

IBM擴大AI資安工具布局，參與廣泛使用軟體漏洞識別與修補