OpenAI 刚刚发布了三个新的实时语音模型,他们说这些模型能“为开发者打开一扇全新的语音应用大门”。每个模型都有自己特别擅长的领域。
开发者可以用 OpenAI 这三个新语音模型打造全新应用体验
这三个新模型分别针对推理、翻译和转录等不同用途。
以下是 OpenAI 今天公布的具体内容:
- GPT‑Realtime‑2,这是他们首个具备 GPT‑5 级别推理能力的语音模型,能处理更复杂的请求,并且对话更自然流畅。
- GPT‑Realtime‑Translate,一个全新的实时翻译模型,支持从 70 多种输入语言翻译成 13 种输出语言,而且能跟上说话人的节奏。
- GPT‑Realtime‑Whisper,新的流式语音转文本模型,能在说话的同时实时转录。
OpenAI 对 GPT-5 级别的 GPT-Realtime-2 模型做了更详细的介绍:
GPT‑Realtime‑2 专为实时语音交互设计,它能在对话过程中边思考边推进,既可以调用工具、处理纠正或打断,还能根据当时的情境给出合适的回应。
另外,新翻译模型支持“70 种输入语言和 13 种输出语言”,OpenAI 表示。
最后是实时转录模型:
GPT‑Realtime‑Whisper 是专为低延迟语音转文本打造的流式转录模型。它能在人们说话时同步转录,让实时产品听起来更快、更灵敏,也更自然——无论是即时出现的字幕,还是能跟上对话节奏的会议笔记。
这三个新语音模型都已集成到 OpenAI 的 Realtime API 中,具体定价如下:
- GPT‑Realtime‑2:音频输入 token 每百万 $32(缓存输入 token 每百万 $0.40),音频输出 token 每百万 $64。
- GPT‑Realtime‑Translate:每分钟 $0.034。
- GPT‑Realtime‑Whisper:每分钟 $0.017。
你可以在 Playground 里试用这些新的实时语音模型。如果你已经安装了 Codex,直接点击下面的提示词提交,就能把 GPT‑Realtime‑2 添加到现有应用,或者直接创建一个新应用。
想了解更多 OpenAI 最新语音模型以及企业实际使用情况,可以点这里查看。
用你的 Apple 设备做更多事
Apple AirTag 2 | 给钥匙、包、自行车等物品加上查找功能
Beats USB-A 转 USB-C 数据线 | 官方 CarPlay 连接线
无线 CarPlay 适配器 | 再也不用插线了
Withings Body Comp | 最佳 Apple Health 智能体重秤


















