国内首个高考志愿AI测评出炉，千问多项表现超过资深咨询师

AI 报志愿，能不能比人类专家更靠谱？

高考志愿填报，可能是中国家庭里最焦虑的决策之一。一个志愿填错了，可能影响孩子未来四年甚至更久的人生轨迹。所以大多数家长的选择是：花几千块，找一个「资深志愿填报咨询师」。

但 AI 现在跑出来说：我可能比这些专家还准。

友松实验室（阿里达摩院旗下的实验室）最近发布了一份《国内首个高考志愿 AI 能力测评报告》——测试对象是他们自己做的一个「千问高考志愿填报 Agent」，对照组的 53 位人类咨询师，平均从业 4.6 年。

结果有点意思。

AI 在哪些地方比人类强？

测评设计了四个模块，我挑几个关键结果说说。

**事实题：44 道全对。** 高考志愿填报涉及到大量的事实性信息——某个学校某年的录取分数线、某个专业的具体要求、某个批次的填报截止时间……这些信息人类咨询师得靠记忆或者查资料，但 AI 可以精确检索，不会记错也不会漏。44 道事实题，千问 Agent 全对，人类咨询师有对有错。

**模拟填报：10 个志愿中 6 个可录取。** 这个测试是这样的：给 Agent 和人类咨询师同样的学生情况（高考分数、意向专业、地域偏好等），让他们分别给出志愿方案，然后模拟投档，看录取概率。千问的方案里，10 个志愿有 6 个是可以录取的——这个比例跟人类咨询师差不多，但 Agent 的方案更稳定（不会出现人类咨询师偶尔会犯的「保守过头」或「冲得太猛」的问题）。

**盲测对比：100 场，专家 58 次倾向千问。** 这个测试最有意思：把 Agent 的回答和人类咨询师的回答混在一起，隐去身份，让 53 位专家来判断「哪个回答更好」。100 场盲测下来，专家们有 58 次选择了千问的回答。

也就是说，在不知道谁是谁的情况下，人类专家更倾向于 AI 给出的回答。

AI 辅助人类：正确率提升，耗时减少 27%

还有一个挺实用的发现：让人类咨询师用千问 Agent 来辅助工作，结果怎么样？

结果显示，用了 AI 辅助之后，人类咨询师的正确率提升了，而且平均耗时减少了约 27%。

这个组合其实是最理想的状态——AI 负责查数据、算概率、生成初稿，人类咨询师负责做最终判断、跟学生和家长沟通、处理那些 AI 不太擅长的「人情世故」层面的问题。

这个 Agent 是怎么做的？

技术层面上，千问高考志愿填报 Agent 基于两个东西：

1. **千问高考志愿大模型**：这是专门为志愿填报场景训练的模型，理解了高考志愿填报的「游戏规则」

2. **夸克 8 年高考数据**：夸克是阿里旗下的搜索产品，过去 8 年一直在做高考志愿填报的信息服务，积累了大约 3000 所院校、2000 多个专业的数据

有这两个东西打底，Agent 基本上能覆盖志愿填报的核心需求：查学校、查专业、算录取概率、给填报建议。

这件事的局限性在哪？

当然，这个测评也有一些需要注意的地方。

第一，这个测评是友松实验室（阿里系）自己做的。虽然测试过程看起来还算严谨（有盲测、有对照、有量化指标），但「自己测自己的产品」这件事，总归会让人有一点疑问。

第二，志愿填报这件事，不只是「数据计算」的问题。一个真正好的志愿填报方案，需要考虑到学生的性格、兴趣、家庭情况、未来规划……这些「非结构化信息」，目前的 AI 处理起来还比较吃力。人类咨询师的价值，很大一部分也在这些「软性」维度上。

第三，这个 Agent 目前看来还没有大规模对外开放（或者至少没有明确提到面向 C 端用户的产品形态）。测评归测评，能不能真正用起来，还得看后续的产品化进展。

我的看法

我觉得这个测评的结果，方向上是对的——AI 在信息处理、数据计算、稳定性这些维度上，确实比人类更有优势。

但志愿填报这个场景，最终决策还是要由人来做。AI 最适合的角色，是「辅助工具」——帮咨询师和学生家长省时间、提供数据支持、避免低级错误。

如果把这个 Agent 开放出来，作为一个「人人都能用的志愿填报 AI 助手」，对广大考生家庭来说，肯定是个好事——至少大家不用再花几千块钱去请咨询师了，先让 AI 帮你算一版方案，有问题再去问人。

高考志愿填报这个赛道，今年可能会变得很热闹。