OpenAI發布三款Realtime API語音模型,將GPT-5等級推理帶進即時語音互動

OpenAI發布三款可透過Realtime API使用的新音訊模型,分別是GPT-Realtime-2、GPT-Realtime-Translate與GPT-Realtime-Whisper,讓開發者建立可即時對話、翻譯與轉錄的語音應用。其中GPT-Realtime-2是OpenAI所稱具GPT-5等級推理能力的語音模型,主要用於讓語音助理在對話中理解使用者需求、保留前後脈絡,並在需要時呼叫工具完成工作。

GPT-Realtime-2針對即時互動加入多項功能,開發者可啟用Preambles功能,讓模型在主要回覆前先以短句告知使用者正在處理請求,例如「我查一下」或「請稍等,我確認一下」,避免語音服務在等待工具回應時顯得中斷。還支援同時呼叫多個工具,例如查詢行事曆或查找資訊,並能用語音說明正在執行的動作。OpenAI表示,這一代模型對專有名詞、醫療等領域詞彙,以及不同語氣的掌握也有所改善,長對話可使用的上下文長度也從3.2萬提高到12.8萬。

根據OpenAI公布的模型評測結果,GPT-Realtime-2在Big Bench Audio音訊智慧評測中,以高推理等級取得96.6%準確率,高於GPT-Realtime-1.5的81.4%,而在Audio MultiChallenge語音多輪對話指令遵循評測中,GPT-Realtime-2以xhigh推理等級取得48.5%平均通過率,高於GPT-Realtime-1.5的34.7%。

另外兩款模型則分別處理翻譯與轉錄,GPT-Realtime-Translate支援70多種輸入語言,可翻譯成13種輸出語言,適用於客服、跨境銷售、教育、活動、媒體與創作者平臺。GPT-Realtime-Whisper則是串流語音轉文字模型,可在說話同時產生文字紀錄,適用於即時字幕、會議紀錄、課堂、廣播與客服後續整理。

三款模型已可透過即時語音API使用,價格方面,GPT-Realtime-2音訊輸入價格為每100萬個音訊輸入Token 32美元,快取輸入Token為0.40美元,音訊輸出Token為64美元,GPT-Realtime-Translate為每分鐘0.034美元,GPT-Realtime-Whisper為每分鐘0.017美元。OpenAI也表示,Realtime API包含多層防護機制,並在Realtime API工作階段使用主動分類器,開發者應讓終端使用者知道自己正在與AI互動,除非使用情境已經明確可辨識。