2026 年 5 月 7 日,OpenAI 在 API 中发布新一代实时语音模型,包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。它们分别面向实时语音对话、实时翻译和流式转写,重点不是把文字答案读出来,而是让语音应用在说话过程中完成理解、推理、翻译和记录。

三个模型分别解决什么问题

GPT-Realtime-2 是面向语音代理的模型,OpenAI 将它定位为具备 GPT-5 级推理能力的实时语音模型,适合处理更复杂的用户请求、打断、追问和工具调用。

GPT-Realtime-Translate 面向跨语言沟通,支持 70 多种输入语言和 13 种输出语言,适合客服、跨境销售、会议、教育、媒体和创作者平台。它的价值不只是翻译一句话,而是尽量跟上真实对话节奏。

GPT-Realtime-Whisper 则解决实时转写问题,能在讲话过程中持续输出文字。这对会议纪要、直播字幕、客服质检和电话机器人都很关键,因为延迟越低,产品体验越像人和人对话。

为什么这条更新重要

过去很多语音 AI 产品采用语音转文字、模型思考、再文字转语音的组合链路,工程复杂、延迟高,也容易在多人对话或打断场景下出错。实时语音模型把更多能力放进同一条链路,意味着开发者可以更快搭建电话代理、同声传译、语音助手和现场服务系统。

但它也带来新的安全要求。语音代理更接近真实人际互动,平台需要限制诈骗、垃圾外呼、冒充他人和高风险建议。企业落地时也要记录用户同意、通话留痕、权限边界和人工接管规则。

实际影响

短期看,客服、教育和跨境沟通会最先受益;中期看,语音会从 App 的附加功能变成智能体入口。谁能把低延迟、可控安全和业务系统连接做好,谁就更容易做出真正可用的语音代理。

官方参考:OpenAI 实时语音模型公告