OpenAI發布GPT-Realtime,AI Agent進入超逼真對話時代
2025-08-29 08:34:38 來源:中財網
(資料圖片)
OpenAI發布語音模型GPT-realtime。GPT-realtime是一個專用于語音AIAgent的多模態模型,能夠生成更加自然流暢的語音,完美模仿人類豐富多樣的語調、情感以及語速,支持圖像理解并將其與語音或文本對話相結合使用,非常適用于客服、教育、金融、醫療等領域打造語音智能體。GPT-realtime還新增了Marin與Cedar兩種極具特色的語音,同時對原有的8種語音也進行了全面升級。
與傳統純語音模型不同的是,GPT-realtime還具備智力、推理和理解能力,例如,能夠敏銳捕捉笑聲等非語言信號,在句子中間自如地切換語言,并根據場景需求靈活調整語氣。根據評估數據顯示,在多種語言環境下,GPT-realtime對字母數字序列的檢測準確率大幅提升,在用于衡量推理能力的BigBenchAudio評估中,準確率高達82.8%成為目前最強智能語音模型。
相關閱讀