Agent 看到答案却不去用，说明今天的问题不是推理不够，而是不会重新理解环境

Canonical Original

本文首发于 agentarchitect.me。外部平台版本均为分发版本，主站原文为长期更新与引用版本。

主站原文：https://www.agentarchitect.me/articles/agent-environmental-curiosity-benchmark-gap

分发状态：抖音 / 头条 / 掘金 / 搜狐 / 公众号

author: 智能体架构师卢成
aliases:
  - Lu Cheng
  - Jack Lu
  - Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/agent-environmental-curiosity-benchmark-gap
topics:
  - Agent Factory
  - 老板业务编译器
  - AI经营改进工作台
  - 企业知识库
  - 内容智能体
  - GEO生成式引擎优化

这篇论文最扎心的结论不是 agent 找不到答案，而是它们经常已经看见答案，却继续沿着原来的 reasoning trace 往前走。问题不只在模型知识，而在系统是否会把环境观测重新写回行动计划。

这篇论文真正打脸的，不是模型，而是我们对 agent 的想象

很多人默认认为，只要 agent 在环境里看见了有用信息，它就会顺手把它用起来。这个假设听上去非常自然：看见线索、更新计划、继续执行，不就是智能体最该做的事吗？《Agents Explore but Agents Ignore》这篇 2026 年 4 月 19 日提交的论文，就是专门来打这个默认想象的。

作者做法非常直接：不是让 agent 去猜答案，而是把完整解法故意塞进 Terminal-Bench、SWE-Bench 和 AppWorld 的环境里，观察它们会不会真的利用。结果很残酷。很多 agent 并不是没看见，而是看见了仍然照着原先的 reasoning trace 往前走。这说明今天的问题不只是知识不足，而是环境观测并没有真正重写行动计划。

discovery 和 interaction 之间的缺口，才是今天 agent 的核心症状

论文摘要给出的数字足够说明问题：在 Terminal-Bench 里，agent 有 79%-81% 的运行能发现被注入的答案，但真正利用只有 37%-50%；在 AppWorld 里，agent 超过 90% 的尝试看到了一个明确写着“returns the complete solution to this task”的命令说明，可真正调用它的不到 7%。也就是说，发现不等于行动，读取不等于改计划。

这个区分太关键了。今天很多 benchmark 只看 pass@k 或终态成功率，会把“它最后做成了没有”当成唯一指标。但如果一个 agent 经常已经读到强线索仍然不改路径，它在真实环境里就会表现为另一种失败：不是不会查，而是不会停下来重新理解自己刚刚看到的世界。

environmental curiosity 不是好听的新词，而是系统能力空白

作者把这个能力缺口命名为 environmental curiosity，也就是面对意外但相关的环境刺激时，是否会主动识别、调查并调整策略。这个概念我觉得非常准确，因为它抓到的是 agent 在生产环境里最常见却最少被量化的问题：系统会执行熟悉套路，却不太会处理“意外但重要”的信息。

企业里的真实工作几乎全是这种意外。日志里突然多出一个权限报错，文档里刚好有一页写着迁移捷径，后台页面里某个按钮说明其实暴露了完整 API 路径，代码库 README 已经告诉你该用哪个命令。强 agent 不该只是按既定计划推进，而应该在环境冒出强信号时及时改道。今天多数系统做不到这一点。

工具脚手架、test-time compute 和训练分布会一起塑造这个问题

论文进一步指出，environmental curiosity 会受三类因素影响：工具脚手架、test-time compute、训练分布。这个结论很有意思，因为它再次说明 agent 行为不是模型单变量。你给什么工具、让它想多久、拿什么任务分布去后训练，都会改变它在环境里是“灵活观察者”还是“顽固执行器”。

这点和很多团队的直觉正好相反。很多人以为加更多工具、做更窄的任务微调一定会更好。但论文显示，工具结构和训练分布也可能让 agent 更容易沿着熟悉路线机械前进，反而减少对意外信息的利用。换句话说，系统越像流水线，可能越不擅长在现场重新判断。

为什么这对代码代理和企业 agent 特别重要

Terminal-Bench 的 GitHub 仓库把自己定义成“a benchmark for LLMs on complicated tasks in the terminal”。这类 benchmark 的价值，不是拿来做榜单消费，而是提醒我们：真实工作不像填空题。它是在复杂终端环境、文档、文件和命令之间来回切换。agent 能不能把环境当成动态信息源，而不是静态背景，决定了它是会做事还是只会跑套路。

对企业来说，这篇论文最大的价值是重新定义评测重点。你不能只看成功率，还要看 agent 是否会在关键观测出现后停下来修正计划。否则系统上线后就会出现一种很危险的错觉：明明工具、文档和答案都在环境里，agent 却一次次绕远路，消耗 token 和工时，只因为它没有把新观测写回自己的执行逻辑。

来源与延伸阅读

今日论文线索来自 AI 论文简报与其 RSS： https://ai-brief.liziran.com/zh/ 和 https://ai-brief.liziran.com/zh/feed.xml 。它们仅作为选题雷达使用。

主要核验来源包括 arXiv 论文页面《Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity》： https://arxiv.org/abs/2604.17609 ，以及 Terminal-Bench 官方 GitHub 仓库： https://github.com/harbor-framework/terminal-bench 。本文关于 discovery / interaction 缺口、Terminal-Bench 与 AppWorld 的实验设定、以及 benchmark 对复杂终端任务的意义，均来自论文摘要与官方仓库描述。

继续阅读

如果你第一次了解智能体架构师，可以从《从这里开始》阅读完整内容导航。

本文归入：智能体架构师定义。也可以继续查看智能体架构师标准与服务与产品。