OpenAI · 大模型

OpenAI 在 API 中推出新型语音模型

OpenAI 在 API 中上线了新一代实时语音模型，能够同时完成推理、翻译和转录任务。这些模型旨在让语音交互更自然、更智能，开发者可以直接调用，为应用注入更接近人类对话的语音能力。

域名: openai.com
评分: 4 · 重要更新
发布: 2026-05-07

导读

OpenAI 在 API 中推出新型语音模型，覆盖 STT（语音识别）和 TTS（语音合成）两个方向。这是 OpenAI 把 ChatGPT 内的 Advanced Voice 能力开放给开发者的关键一步。

STT 模型在英语和多语言上的词错率比 Whisper-v3 又下降约 30%，特别在嘈杂环境、口音、专业术语场景下表现明显更好。TTS 模型支持自然度更高的多种音色和情感控制，能够根据文本上下文自动调整语气。两个模型都为流式场景做了延迟优化，可以接入 Realtime API。

这套新模型为 voice agent 应用提供了完整闭环：实时识别用户语音、Reasoning 模型理解意图、TTS 合成回复语音。配合 GPT-5.5 的 agent 能力，可以做电话客服自动化、教育辅导、会议助手等深度 voice 应用。Anthropic 和 Google 在 voice 这条线上的产品节奏明显慢于 OpenAI。

原文摘要

Explore new realtime voice models in the OpenAI API that can reason, translate, and transcribe speech, enabling more natural and intelligent voice experiences.

Back to Latest