让 Agent 学会"先预测,再行动"
通义千问搞了个「世界模型」,让 Agent 能在脑子里「模拟」未来
大模型训练 Agent,一直有一个挺棘手的问题:Agent 在真实环境里试错,成本很高,而且有时候还很危险。
比如说,你想训练一个能操作电脑的 Agent。如果让它在真实环境里随便试,它可能会误删文件、乱发邮件、或者把系统搞崩。你总不能为了训练 Agent,就给它管理员权限然后在生产环境里放飞自我吧?
阿里通义千问团队最近发布的 Qwen-AgentWorld,提出了一个挺聪明的解决方案:先训练一个「世界模型」——让 Agent 能在一个模拟环境里先「想清楚」再行动,而不是一头扎进真实环境里盲试。
什么是「语言世界模型」?
「世界模型」这个概念,最早来自强化学习。核心想法是:如果 AI 能学会「预测下一个状态」,它就能在做出行动之前,先模拟一下「我这么做会发生什么」。
比如说,你让 Agent 去帮你订一张机票。传统 Agent 的做法是:直接去航空公司网站,选日期、选航班、填乘客信息、付款——这套流程里任何一步出错,可能就得重来,甚至造成误操作。
如果有一个「世界模型」,Agent 可以先在脑子里「模拟」一遍整个订票流程——「我点这个按钮,会跳到哪个页面?我填这个信息,系统会怎么响应?」——确认没问题了,再去真实环境里执行。
通义千问这个 Qwen-AgentWorld,做的就是这件事——只不过它用的不是视觉模拟(比如说生成下一帧图片),而是用「语言」来建模世界。环境的状态和变化,全用文字来描述。
这个选择其实挺务实的。因为很多 Agent 任务(比如说操作电脑、搜索信息、调用 API)本质上就是「文本进,文本出」的——用语言来建模,足够了。
基于 1000 万条真实交互轨迹
Qwen-AgentWorld 是基于超过 1000 万条真实环境交互轨迹训练出来的。数据来源包括:MCP(模型上下文协议)交互、搜索行为、终端操作、软件工程任务、Web 浏览、操作系统操作、Android 操作——七大领域。
训练分三个阶段:
1. **CPT(继续预训练)**:把交互轨迹「喂」给模型,让它学会「环境是怎么运转的」
2. **SFT(监督微调)**:教模型「给定当前状态,预测下一个状态应该是什么」
3. **RL(强化学习)**:让模型在模拟环境里试错,根据结果好坏来调整策略
这种 CPT→SFT→RL 的三阶段训练,是通义千问团队的一个技术创新。他们发现,如果在预训练阶段就把「环境建模」作为训练目标(而不是等对通用大模型训练完了再事后适配),模型的世界建模能力会强很多。
评测结果:超过了 GPT-5.4 和 Claude Opus 4.8
在 AgentWorldBench 评测基准上,Qwen-AgentWorld-397B-A17B(这是模型里最大的版本)取得了 58.71 分,超过了 GPT-5.4 的 58.25 分,也超过了 Claude Opus 4.8。
这个分数看起来差距不大,但实际上在 Agent 评测里,0.5 分的差距往往意味着「能在真实场景里少犯很多错」。
更有意思的是小模型的表现。Qwen-AgentWorld-35B-A3B(一个相对小的版本)在经过三阶段训练之后,整体均分提升了 8.66 分——这个提升幅度意味着,世界建模能力是可以「迁移」的:你不需要针对每个任务都重新训练,一个通用 world model 能覆盖很多场景。
两种应用范式
通义千问团队还探索了世界模型在 Agent 训练里的两种应用方式:
**第一种:作为解耦的环境模拟器。** 就是说,Agent 的训练可以不在真实环境里进行,而是在世界模型的「模拟环境」里进行。这样做有两个好处:一是安全(不会搞坏真实系统),二是高效(模拟环境里可以并行跑很多个 Agent,真实环境里做不到)。团队在 WideSearch 任务上做了实验:用模拟环境训练的 Agent,效果(F1 50.3%)超过了在真实环境里训练的 Agent(F1 45.6%)。
**第二种:作为 Agent 基础模型。** 就是说,你可以用世界模型先给 Agent 做一个「预热训练」(让 Agent 先学会「环境是怎么运转的」),然后再去具体任务上做微调。团队发现,用 LWM 做预热之后,Agent 在七个评测基准上的表现都有提升——而且其中三个基准「完全没在训练集里出现过」。这说明世界模型的泛化能力挺强的。
已开源,可免费使用
Qwen-AgentWorld 模型和 AgentWorldBench 评测基准都已经开源,放在了 Hugging Face 和 ModelScope 上,可以免费使用。
对于做 Agent 研发的团队来说,这个开源挺有价值的——以前想训练一个能用真实环境试错的 Agent,成本很高;现在有了这个世界模型,可以先在模拟环境里训,训得差不多了再部署到真实环境里。
这件事对整个 Agent 领域的影响可能是:降低 Agent 训练的门槛和成本,让更多小团队也能训练出靠谱的 Agent。
来源:公众号:通义实验室(千问)