AI AI工具情报站
冷门宝藏NOASSERTION

AI Agent 评估资源大全:443+精选链接,146篇深度笔记,这才是真正的 awesome list

⭐ 192 Stars 🧭 8 Forks 🕓 2026年6月25日
🚀
为什么热门:2026年6月24日刚创建,但因高质量策展和实用评估模式迅速获得关注,Stars 已破 190+

👤 适合人群

AI 开发者AI 研究者机器学习工程师技术负责人

不是链接堆砌,是真正精选的 Agent 评估资源库

你见过多少 GitHub 上的 "awesome" 列表?大部分都是链接堆砌,点进去发现一半链接都死了,另一半根本不知道为什么在那里。

BenchFlow 团队做的这个 [awesome-evals](https://github.com/benchflow-ai/awesome-evals) 不一样。他们说自己的是「non-BS」的 awesome list,我看了下还真不是吹牛。

怎么个「non-BS」法?

  • **深度引用爬取**:对 11.6k 篇论文做了深度-4 的递归引用爬取,按入度排序,把学术经典给挖出来了
  • **从业者网络发现**:专门去挖那些引用图谱里漏掉的业界资源(Eugene Yan、Han-Chung Lee、Hamel Husain 等大佬的文章)
  • **47 个演讲和播客**:全部转录并做了深度注释(逐字稿 + 时间戳)
  • **每章节缺口审计**:还有对抗性验证,确保没有重要资源被漏掉

结果就是:**443+ 精选链接,146 篇深度阅读笔记**。每个条目都标注了「它是什么」和「为什么它在这里」,URL 都检查过,死链和废弃工具都被修剪掉了。

实战手册才是真正的宝藏

光有资源列表还不够,他们还做了一个 [PATTERNS.md](https://github.com/benchflow-ai/awesome-evals/blob/main/PATTERNS.md) 实战手册,里面有**可运行的代码和工作示例**,覆盖:

  • LLM-as-judge(如何让它和人类判断对齐)
  • pass@k/pass^k 评估方法
  • 错误分析
  • 轨迹和世界状态评分
  • CI 门控
  • 可验证奖励

为什么你应该关注?

AI Agent 现在火得一塌糊涂,但说实话,**大部分团队都不知道怎么评估自己的 Agent 到底好不好**。没有评估就没有改进,这是 ML 界的铁律。

这个项目把学术界和工业界最好的评估资源都整理到一起了,还给了实战代码。不管你是在做 Agent 产品,还是在研究 Agent 能力,这都是个必收的资源库。

⚠️ 注意:项目刚创建,还在快速更新中。🆕 标记的是 2025-2026 年发布或更新的资源。

---

**项目地址**:https://github.com/benchflow-ai/awesome-evals

**维护方**:BenchFlow(标语:Environments are the new data)

🚀

开始使用

开源 · 可商用

MIT License 🧭 8 forks
← 返回开源热榜数据来源:GitHub API