AI AI工具情报站
模型动态IT之家

双向AI语音模型 Bidi 1 已上线测试

IT之家2026-06-24T04:34:24.000Z

# OpenAI ChatGPT 语音最大规模升级:双向 AI 语音模型 Bidi 1 深度解析

为什么这件事值得关注?

2026年6月23日,科技媒体 testingcatalog 报道了一个重要发现:部分 ChatGPT 用户在其网页版和 App 中,意外发现了全新的语音模型选项——**Bidi 1**。这个名字听起来可能有点陌生,但它背后的技术突破,可能会彻底改变我们与 AI 语音助手交互的方式。

这不是一次普通的模型更新,而是 **ChatGPT 自推出语音功能以来,最大规模的一次升级**。

Bidi 1 到底是什么?

传统的 AI 语音对话:一问一答的"半双工"模式

在了解 Bidi 1 之前,我们先看看现有的 AI 语音对话是怎么工作的:

**标准语音模式**(Standard Voice):你说一句,AI 听一句,然后 AI 说一句,你再听一句。就像对讲机一样,同一时间只能有一方在说话。这种模式在技术上叫做"半双工"(Half-duplex)。

**高级语音模式**(Advanced Voice):虽然听起来更自然,但本质上还是半双工。AI 会在确认你说话完毕后才开始生成回复。如果你说到一半改变主意,AI 已经听不到了,因为它"耳朵是关着的"。

Bidi 1 的突破:真正的"全双工"对话

**Bidi** 这个名字,其实就是 **Bidirectional**(双向)的缩写。它的核心突破在于:

1. **边说边听**:AI 在说话的同时,也在持续监听你的声音。就像真人对话一样,你随时可以插话、打断、补充。

2. **即时响应**:不需要等 AI 把一句话说完,你可以在任何时刻发出新指令,AI 会立即调整自己的行为。

3. **更自然的交流节奏**:人类对话本来就是这样的——我们会互相打断、补充、确认,而不是像机器人一样轮流发言。

实际测试案例:从数数看 Bidi 1 的"打断能力"

根据测试视频显示,用户给 Bidi 1 下达了一个指令:"从 1 数到 10"。在传统语音模式下,AI 会一口气数完,不会理会你的打断。

但在 Bidi 1 模式下,用户在 AI 数到 5 的时候突然喊了一声"停!倒数!",AI 立即中断了当前的数数,转而开始从当前数字倒数。**这种"中途打断并切换任务"的能力,在之前的 AI 语音模型中是不可能实现的。**

这个看似简单的演示,背后其实是巨大的技术突破。

技术层面:Bidi 1 是如何实现的?

虽然 OpenAI 尚未公布 Bidi 1 的技术细节,但根据业界已有的双向语音技术研究,我们可以推测它可能采用了以下技术:

1. 自适应回声消除(AEC)与语音活动检测(VAD)

要让 AI "边说边听",首先要解决的技术难题是:**AI 自己的声音会进入麦克风,如果不加处理,AI 会"听到"自己说话,导致混乱**。

这就像你打电话时,如果不做回声消除,你会听到自己的声音从对方话筒传回来,形成刺耳的回声。

Bidi 1 需要实时区分:

  • 哪些是自己的声音(需要过滤掉)
  • 哪些是用户的声音(需要立即响应)

这需要非常精准的**回声消除算法**和**语音活动检测算法**。

2. 实时语音流处理与增量解码

传统语音模型是"说完再生成":等你说话完毕,AI 才开始生成完整回复,然后再转换为语音。

Bidi 1 可能需要采用**增量处理**的方式:

  • 在用户说话的同时,就开始"预判"用户可能要问什么
  • 在 AI 自己说话的同时,就开始准备如何应对可能的打断

这要求模型具备**极低的延迟**和**强大的实时处理能力**。

3. 对话状态管理与动态调整

当用户输入打断指令时,AI 需要:

  • 立即暂停当前回复的生成
  • 理解打断指令的意图
  • 快速切换到新的任务

这需要模型具备**强大的对话状态管理能力**和**快速的任务切换能力**。

与现有语音模型的对比

| 特性 | 标准语音 | 高级语音 | Bidi 1 |

|------|---------|---------|--------|

| 对话模式 | 半双工 | 半双工 | **全双工** |

| 能否打断 | ❌ 不能 | ❌ 不能 | ✅ 可以随时打断 |

| 边说边听 | ❌ 不支持 | ❌ 不支持 | ✅ 支持 |

| 自然度 | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐(预期) |

| 适用场景 | 简单问答 | 较长对话 | **复杂对话、协作任务** |

这对普通用户意味着什么?

1. 更自然的语音交互体验

如果你用过 Siri、小爱同学、或者 ChatGPT 的语音模式,你一定有这样的体验:

  • 说到一半,发现说错了,想改口,但 AI 已经听不到了
  • AI 在说话时,你突然想到一个重要问题,但只能等它说完
  • 对话感觉"僵硬",不像在跟人聊天

**Bidi 1 会彻底改变这种体验**。你可以像跟朋友聊天一样,随时插话、打断、补充。AI 会像真人一样,理解你的中断,并立即调整回应。

2. 更复杂的语音任务成为可能

有些任务,需要多轮对话、反复调整,比如:

  • **语音翻译**:你在说话时,AI 可以实时翻译,并在你改变说法时立即调整
  • **语音写作**:你口述文章,AI 实时转写,你可以随时口述"删除上一段"、"修改这个词"
  • **语音编程**:你口述代码,AI 实时生成,你可以随时口述"不对,改成for循环"

这些任务,在传统的半双工语音模式下很难高效完成,但在 Bidi 1 的全双工模式下,会变得非常自然。

3. 对无障碍功能的提升

对于视障用户、或无法使用键盘输入的用户,语音是主要的交互方式。Bidi 1 的"可打断性",会让他们在使用 AI 时更加高效、更加自主。

OpenAI 为何此时推出 Bidi 1?

竞争压力:Google、Anthropic 在语音 AI 上的进展

近年来,AI 语音交互已经成为各大公司的竞争焦点:

  • **Google Gemini**:已经支持多轮语音对话,并在实时性上做了大量优化
  • **Anthropic Claude**:虽然主要以文字为主,但其语音功能也在规划中
  • **字节豆包**:在国内市场,豆包的语音交互体验已经非常出色

OpenAI 需要在语音 AI 上保持领先,Bidi 1 是重要一步。

技术成熟度:模型能力已经达到临界点

要实现"边说边听",需要模型在**语音识别(ASR)**、**自然语言理解(NLU)**、**语音合成(TTS)** 三个环节都达到极低的延迟和高精度。

随着 GPT-4o、GPT-5 等模型的出现,OpenAI 在实时处理能力上已经取得了重大突破。Bidi 1 很可能是这些技术积累的产物。

潜在挑战与争议

1. "打断"的边界在哪里?

如果 AI 太容易被打断,可能会导致:

  • 用户误触发打断(比如咳嗽、叹气)
  • AI 频繁切换任务,对话失去连贯性

OpenAI 需要精心设计"打断检测"的算法,确保只在用户**真正想打断**时才响应。

2. 隐私问题:AI 一直在"听"

Bidi 1 需要 AI 在说话的同时也开启麦克风监听。这可能会引发一些用户的隐私担忧:

  • AI 会不会记录我在它说话时的所有声音?
  • 这些声音数据会被用来训练模型吗?

OpenAI 需要在隐私政策上做出明确说明。

3. 技术稳定性:全双工模式更容易出错

传统的半双工模式,每一轮对话都是清晰的"用户输入 → AI 输出",不容易出错。

但全双工模式下,用户输入和 AI 输出可能**同时发生**,这会导致:

  • 语音识别错误率上升(因为环境噪音、回声等)
  • 对话状态跟踪变得更复杂

OpenAI 需要经过大量测试,确保 Bidi 1 在各种场景下都能稳定工作。

未来展望:Bidi 1 只是开始

1. 实时语音翻译的突破

如果 Bidi 1 的技术成熟,未来我们完全可以实现**实时语音翻译**:

  • 你说中文,AI 实时翻译成英文并说出来
  • 对方说英文,AI 实时翻译成中文并播放
  • 双方可以随时打断、补充,就像在用同一种语言聊天

这会是跨语言交流的革命性突破。

2. 语音 AI 助手的"人格化"

现在的语音 AI,还是"工具感"很重。但 Bidi 1 的全双工对话,会让 AI 助手更像"人":

  • 可以跟你"聊天",而不是"问答"
  • 可以感知你的情绪(通过语气、语速),并调整回应
  • 可以成为真正的"语音伙伴",而不只是"语音工具"

3. 多模态交互的融合

未来,语音、文字、图像、视频可能会完全融合:

  • 你一边用语音跟 AI 聊天,一边用手机拍摄物品
  • AI 同时处理你的语音和图像,给出综合回答
  • 这种"多模态全双工交互",会是 AI 助手的终极形态

总结:Bidi 1 为何重要?

Bidi 1 的出现,标志着 AI 语音交互从"工具时代"进入"伙伴时代"。

它不只是一次技术升级,更是对**人机交互方式**的重新定义。当 AI 可以像真人一样跟你对话时,我们与 AI 的关系,也会发生根本性的变化。

**对于普通用户**,这意味着更自然、更高效、更有趣的语音交互体验。

**对于行业**,这会引发新一轮的"语音 AI 竞赛",各大公司都会加速全双工语音技术的研发。

**对于未来**,这可能是 AI 助手真正"走进生活"的关键一步。当你可以像跟朋友聊天一样跟 AI 说话时,AI 才会真正融入你的日常。

---

**相关链接**:

  • IT之家报道:https://www.ithome.com/0/967/852.htm
  • OpenAI 官方:https://openai.com

**发布时间**:2026年6月24日

**作者**:AI工具情报站

**标签**:#OpenAI #ChatGPT #语音AI #Bidi1 #全双工对话

来源:IT之家· 2026-06-24T04:34:24.000Z