OpenAI · 大模型

OpenAI 在 API 中推出新型语音模型

OpenAI 在 API 中上线了新一代实时语音模型,能够同时完成推理、翻译和转录任务。这些模型旨在让语音交互更自然、更智能,开发者可以直接调用,为应用注入更接近人类对话的语音能力。

域名
openai.com
评分
4 · 重要更新
发布
2026-05-07

导读

OpenAI 在 API 中推出新型语音模型,覆盖 STT(语音识别)和 TTS(语音合成)两个方向。 这是 OpenAI 把 ChatGPT 内的 Advanced Voice 能力开放给开发者的关键一步。

STT 模型在英语和多语言上的词错率比 Whisper-v3 又下降约 30%,特别在嘈杂环境、口音、 专业术语场景下表现明显更好。TTS 模型支持自然度更高的多种音色和情感控制,能够根据 文本上下文自动调整语气。两个模型都为流式场景做了延迟优化,可以接入 Realtime API。

这套新模型为 voice agent 应用提供了完整闭环:实时识别用户语音、Reasoning 模型理解 意图、TTS 合成回复语音。配合 GPT-5.5 的 agent 能力,可以做电话客服自动化、教育辅导、 会议助手等深度 voice 应用。Anthropic 和 Google 在 voice 这条线上的产品节奏明显慢于 OpenAI。

原文摘要

Explore new realtime voice models in the OpenAI API that can reason, translate, and transcribe speech, enabling more natural and intelligent voice experiences.