OpenAI 发布三款 GPT-5 级语音模型,同传成本降至每分钟两毛五

OpenAI 发布三款实时语音 API 模型,首次将 GPT-5 级推理能力集成进语音交互系统,将同声传译成本压至每分钟 0.025 美元。

リサーチノート

OpenAI 于 2026 年 5 月 8 日向 API 开放三款实时语音模型,首次将 GPT-5 级推理能力集成进语音交互系统,同声传译成本降至每分钟 0.025 美元(约两毛五)1

功能亮点

三款模型各有侧重1
  • GPT-Realtime-2:系列中的旗舰推理语音模型,首次在语音模态上搭载 GPT-5 级推理能力,可处理更复杂的请求、更自然地推进对话。
  • GPT-Realtime-Translate:专为实时翻译设计,支持 70+ 种语言输入、13 种语言输出,通话级延迟下完成同声传译,定价约每分钟 0.025 美元。
  • GPT-Realtime-Whisper:流式实时转录模型,边听边写,提供低延迟的语音转文字服务,适合会议记录、直播字幕等连续转录场景。
三款模型均已在 OpenAI 开发者 Playground 开放测试。

应用场景

跨语言实时通信:GPT-Realtime-Translate 支持 70+ 种语言输入、13 种语言输出,将同声传译压到 API 调用层级。每分钟 0.025 美元的定价,使多语言客服、国际会议、跨境直播等场景可经由 API 集成替代专业译员或高价软件1
端到端语音 Agent:GPT-Realtime-2 的推理能力允许语音 Agent 在通话中完成多步骤任务处理,无需将语音先转写为文本再交给文本模型推理,减少了链路延迟与信息损耗。
实时转录与字幕:GPT-Realtime-Whisper 的流式特性适用于需要即时文字反馈的场景,包括播客同步字幕、法庭速录、远程医疗记录等。

发布方背景

OpenAI 是总部位于旧金山的 AI 研究公司,ChatGPT 和 GPT 系列语言模型的开发商,此次三款语音模型通过其 API 平台向开发者开放。

原文来源:量子位《GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价》(2026-05-08,无独立URL)| OpenAI 官方公告

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。