豆包音频生成模型1.0发布,重新定义AI音频创作
豆包出了个音频生成模型,让 AI 做「声音导演」
音频生成这个事情,之前大家可能比较熟悉的是「TTS」(文字转语音)——你输一段文字,AI 念给你听。
但豆包最近发布的这个 Seed-Audio 1.0(豆包音频生成模型 1.0),做的不是简单的 TTS,而是「音频创作」——你给它一段文字描述,它能生成一段包含多角色对白、背景音乐、环境音效的完整音频。
这个区别有点像「让 AI 帮你念一段文字」vs「让 AI 帮你导演一部广播剧」。
一条 Prompt,编排整个音频场景
Seed-Audio 1.0 最厉害的地方在于:你可以用一条文字 Prompt,同时控制多个维度的信息:
- **多角色对白**:一段音频里有多个「说话人」,每个有自己的音色
- **情绪语气**:说这话的时候是开心、生气、还是犹豫
- **背景音乐**:配什么样的 BGM
- **环境氛围**:咖啡馆的嘈杂声、户外的风声、室内的回音……
以前要做这些事情,你得分别生成每个角色的对白,然后拿到音频编辑软件里去混音——把对白、BGM、环境音分别放在不同的音轨上,调音量、调时序,最后导出。
Seed-Audio 1.0 做的是「端到端」生成:你给 Prompt,它直接输出最终的目标音频,不需要你再去后期混音。
「一声多角」和长时一致性
这里有两个技术难点,豆包说他们解决了。
第一个是「一声多角」:在同一段音频里,多个角色用的是不同的音色,但模型能够保持「这是同一个故事场景」的连贯性。这个挺难的——因为模型得理解剧情上下文,知道「现在该谁说话了」「这句话的语气应该是什么样的」。
第二个是「长时一致性」:生成比较长的音频(比如几分钟的一段广播剧)时,角色的音色不能飘——不能前面是这个声音,后面听着像另一个人了。Seed-Audio 1.0 支持一次生成 2 分钟的音频,如果需要更长,可以多次「延长」,而且保持音色统一。
0 样本多模态输入
还有一个挺实用的功能:「0 样本多模态输入」。就是说,你不需要额外训练模型,就能给它图片、声音、文字,让它根据这些输入来生成音频。
比如,你上传一张照片(比如说一张海边日落的照片),再配一段文字「这段音频要让人感觉宁静、温暖」,模型就能生成一段符合这个描述的环境音效 + 背景音乐。
或者,你给模型一段参考音频(比如说一段带着哭腔的说话录音),让它基于这个情感基调,生成一段新的对白音频。
音色与风格解耦
「音色与风格解耦控制」是一个挺重要的技术点。意思是:音色(这个声音是谁的)和风格(这个声音是怎么说的,什么情感,什么语速)被分开控制了。
为什么要解耦?因为实际需求里,经常需要「换音色但不换情感」或者「换情感但不换音色」。如果音色和风格绑在一起,就没法灵活组合了。
豆包说 Seed-Audio 1.0 实现了这个解耦,让用户可以更灵活地控制生成结果。
能用在哪里?
这个功能看起来有点「内容创作专属」,但实际上应用场景还挺广的:
- **短视频配音**:现在做抖音、快手、小红书短视频,配音需求量很大。Seed-Audio 可以让创作者用 AI 生成多角色对话、配 BGM、加环境音效,一条龙搞定。
- **有声书/广播剧**:这个是天然场景。以前做有声书,得请配音演员、做后期;现在 AI 可以生成多角色对白,效率提升非常显著。
- **教育内容**:语言学习、儿童故事,这些都需要有吸引力的音频内容。
- **游戏和影视预演**:在游戏开发或影视制作的前期,可以用 AI 快速生成配音草稿,方便团队评估效果。
已经开启邀测,即将上线剪映等产品
Seed-Audio 1.0 已经开启了火山方舟的调用接口邀测。个人用户有 30 分钟的创作额度(免费)。
豆包还说,这个功能即将上线剪映、即梦、番茄等字节旗下的产品——这意味着,普通用户很快就能在常用的创作工具里直接用上这个能力了。
对于内容创作者来说,这个工具的想象空间还是挺大的。特别是那些需要批量生产音频内容的场景(比如说每天发几条配音短视频的账号),AI 音频生成可以大幅降低生产成本和时间。
当然,最终的生成质量能不能满足专业需求,还得实际用一用才知道。
来源:公众号:火山引擎