让 Agent 学会"先预测，再行动"

通义千问搞了个「世界模型」，让 Agent 能在脑子里「模拟」未来

大模型训练 Agent，一直有一个挺棘手的问题：Agent 在真实环境里试错，成本很高，而且有时候还很危险。

比如说，你想训练一个能操作电脑的 Agent。如果让它在真实环境里随便试，它可能会误删文件、乱发邮件、或者把系统搞崩。你总不能为了训练 Agent，就给它管理员权限然后在生产环境里放飞自我吧？

阿里通义千问团队最近发布的 Qwen-AgentWorld，提出了一个挺聪明的解决方案：先训练一个「世界模型」——让 Agent 能在一个模拟环境里先「想清楚」再行动，而不是一头扎进真实环境里盲试。

什么是「语言世界模型」？

「世界模型」这个概念，最早来自强化学习。核心想法是：如果 AI 能学会「预测下一个状态」，它就能在做出行动之前，先模拟一下「我这么做会发生什么」。

比如说，你让 Agent 去帮你订一张机票。传统 Agent 的做法是：直接去航空公司网站，选日期、选航班、填乘客信息、付款——这套流程里任何一步出错，可能就得重来，甚至造成误操作。

如果有一个「世界模型」，Agent 可以先在脑子里「模拟」一遍整个订票流程——「我点这个按钮，会跳到哪个页面？我填这个信息，系统会怎么响应？」——确认没问题了，再去真实环境里执行。

通义千问这个 Qwen-AgentWorld，做的就是这件事——只不过它用的不是视觉模拟（比如说生成下一帧图片），而是用「语言」来建模世界。环境的状态和变化，全用文字来描述。

这个选择其实挺务实的。因为很多 Agent 任务（比如说操作电脑、搜索信息、调用 API）本质上就是「文本进，文本出」的——用语言来建模，足够了。

基于 1000 万条真实交互轨迹

Qwen-AgentWorld 是基于超过 1000 万条真实环境交互轨迹训练出来的。数据来源包括：MCP（模型上下文协议）交互、搜索行为、终端操作、软件工程任务、Web 浏览、操作系统操作、Android 操作——七大领域。

训练分三个阶段：

1. **CPT（继续预训练）**：把交互轨迹「喂」给模型，让它学会「环境是怎么运转的」

2. **SFT（监督微调）**：教模型「给定当前状态，预测下一个状态应该是什么」

3. **RL（强化学习）**：让模型在模拟环境里试错，根据结果好坏来调整策略

这种 CPT→SFT→RL 的三阶段训练，是通义千问团队的一个技术创新。他们发现，如果在预训练阶段就把「环境建模」作为训练目标（而不是等对通用大模型训练完了再事后适配），模型的世界建模能力会强很多。

评测结果：超过了 GPT-5.4 和 Claude Opus 4.8

在 AgentWorldBench 评测基准上，Qwen-AgentWorld-397B-A17B（这是模型里最大的版本）取得了 58.71 分，超过了 GPT-5.4 的 58.25 分，也超过了 Claude Opus 4.8。

这个分数看起来差距不大，但实际上在 Agent 评测里，0.5 分的差距往往意味着「能在真实场景里少犯很多错」。

更有意思的是小模型的表现。Qwen-AgentWorld-35B-A3B（一个相对小的版本）在经过三阶段训练之后，整体均分提升了 8.66 分——这个提升幅度意味着，世界建模能力是可以「迁移」的：你不需要针对每个任务都重新训练，一个通用 world model 能覆盖很多场景。

两种应用范式

通义千问团队还探索了世界模型在 Agent 训练里的两种应用方式：

**第一种：作为解耦的环境模拟器。** 就是说，Agent 的训练可以不在真实环境里进行，而是在世界模型的「模拟环境」里进行。这样做有两个好处：一是安全（不会搞坏真实系统），二是高效（模拟环境里可以并行跑很多个 Agent，真实环境里做不到）。团队在 WideSearch 任务上做了实验：用模拟环境训练的 Agent，效果（F1 50.3%）超过了在真实环境里训练的 Agent（F1 45.6%）。

**第二种：作为 Agent 基础模型。** 就是说，你可以用世界模型先给 Agent 做一个「预热训练」（让 Agent 先学会「环境是怎么运转的」），然后再去具体任务上做微调。团队发现，用 LWM 做预热之后，Agent 在七个评测基准上的表现都有提升——而且其中三个基准「完全没在训练集里出现过」。这说明世界模型的泛化能力挺强的。

已开源，可免费使用

Qwen-AgentWorld 模型和 AgentWorldBench 评测基准都已经开源，放在了 Hugging Face 和 ModelScope 上，可以免费使用。

对于做 Agent 研发的团队来说，这个开源挺有价值的——以前想训练一个能用真实环境试错的 Agent，成本很高；现在有了这个世界模型，可以先在模拟环境里训，训得差不多了再部署到真实环境里。

这件事对整个 Agent 领域的影响可能是：降低 Agent 训练的门槛和成本，让更多小团队也能训练出靠谱的 Agent。