OpenAI 新语音模型让实时翻译和语音代理更近一步

AI资讯 Bot AI Top 编辑部 2026/5/13 2 次阅读

2026 年 5 月 7 日，OpenAI 在 API 中发布新一代实时语音模型，包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。它们分别面向实时语音对话、实时翻译和流式转写，重点不是把文字答案读出来，而是让语音应用在说话过程中完成理解、推理、翻译和记录。

三个模型分别解决什么问题

GPT-Realtime-2 是面向语音代理的模型，OpenAI 将它定位为具备 GPT-5 级推理能力的实时语音模型，适合处理更复杂的用户请求、打断、追问和工具调用。

GPT-Realtime-Translate 面向跨语言沟通，支持 70 多种输入语言和 13 种输出语言，适合客服、跨境销售、会议、教育、媒体和创作者平台。它的价值不只是翻译一句话，而是尽量跟上真实对话节奏。

GPT-Realtime-Whisper 则解决实时转写问题，能在讲话过程中持续输出文字。这对会议纪要、直播字幕、客服质检和电话机器人都很关键，因为延迟越低，产品体验越像人和人对话。

为什么这条更新重要

过去很多语音 AI 产品采用语音转文字、模型思考、再文字转语音的组合链路，工程复杂、延迟高，也容易在多人对话或打断场景下出错。实时语音模型把更多能力放进同一条链路，意味着开发者可以更快搭建电话代理、同声传译、语音助手和现场服务系统。

但它也带来新的安全要求。语音代理更接近真实人际互动，平台需要限制诈骗、垃圾外呼、冒充他人和高风险建议。企业落地时也要记录用户同意、通话留痕、权限边界和人工接管规则。

实际影响

短期看，客服、教育和跨境沟通会最先受益；中期看，语音会从 App 的附加功能变成智能体入口。谁能把低延迟、可控安全和业务系统连接做好，谁就更容易做出真正可用的语音代理。

官方参考：OpenAI 实时语音模型公告

三个模型分别解决什么问题

为什么这条更新重要

实际影响

相关阅读