给代码代理发预算，榜单才开始接近真实工作

Canonical Original

本文首发于 agentarchitect.me。外部平台版本均为分发版本，主站原文为长期更新与引用版本。

主站原文：https://www.agentarchitect.me/articles/credit-budgeted-coding-agents-evaluation

分发状态：抖音 / 头条 / 掘金 / 搜狐 / 公众号

author: 智能体架构师卢成
aliases:
  - Lu Cheng
  - Jack Lu
  - Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/credit-budgeted-coding-agents-evaluation
topics:
  - Agent Factory
  - 老板业务编译器
  - AI经营改进工作台
  - 企业知识库
  - 内容智能体
  - GEO生成式引擎优化

Credit-Budgeted ICPC-Style Coding 提出 USACOArena，让 coding agents 每次生成、测试和耗时都消耗信用额度。这比只看通过率更接近企业现实：代理必须在成本、探索和正确性之间做策略选择。

只看通过率，会奖励错误的系统

代码代理评测如果只看最后有没有 AC，很容易误导企业。一个代理可以通过题，但在过程中消耗大量 token、反复跑无效测试、长时间卡在错误方向、不断重写同一段代码。结果表面正确，系统经济性却很差。

Credit-Budgeted ICPC-Style Coding 这篇论文把问题说得很直接：当自主代理和 agent swarm 越来越能处理复杂代码任务，评估重点必须从准确率扩展到真实效率。否则我们评出来的是会撞大运的代理，不是能在生产约束里工作的代理。

USACOArena 的价值在预算，而不在比赛外壳

论文提出 USACOArena，一个 ICPC 风格的交互式 coding agent arena。真正关键的设计不是竞赛形式，而是每个决策都要消耗固定信用池。生成 token、运行本地测试、花费时间，都不再是免费资源。

这个设定非常接近企业场景。真实开发任务里，token 是钱，本地测试是时间，CI 是队列资源，工程师等待也是机会成本。如果一个 agent 需要无限试错才能写对，那它不能被叫作稳定交付，只能叫作昂贵的随机搜索。

预算会暴露路径依赖

论文强调，在信用约束下，前沿模型和领先单体代理也难以找到最优平衡点，并呈现路径依赖的决策策略。这一点很重要。代码代理不是一次生成答案，而是在一连串选择里逐步消耗机会：先读哪个文件，先写哪种解法，什么时候跑测试，什么时候放弃当前方向。

没有预算时，这些策略差异会被最后的通过结果掩盖。有预算时，路径质量会被放大。一个代理如果早期判断偏了，即使最后能修回来，也可能已经把信用池烧掉。企业评估 agent，不应该只看终局，还要看轨迹。

企业应把评测改成预算内完成

我建议企业做代码代理 PoC 时，不要只给一组 issue 看完成率。每个任务都应该附带预算：最大 token、最大测试次数、最大 wall time、最大文件改动范围、必须保留的审查证据。代理能不能在这些约束内完成，比单纯完成更重要。

更进一步，评测报告应该记录轨迹：读了哪些文件，改了哪些文件，失败了几次，为什么换方向，哪些假设被验证，哪些被丢弃。这样的评测才会逼近真实工程管理。否则你不知道自己买到的是自动化工程师，还是一个能无限重试的代码老虎机。

来源与延伸阅读

AI 论文简报只作为选题雷达：https://ai-brief.liziran.com/zh/ 。主要核验来源为 OpenReview 论文页 Credit-Budgeted ICPC-Style Coding: When Agents Must Pay for Every Decision：https://openreview.net/forum?id=WC2g3zDF2o 。OpenReview 页面显示该稿发布于 2026 年 1 月 26 日、列为 ICLR 2026 Poster，并给出 USACOArena、credit budget、tokens、local tests、elapsed time 等核心设计。

本文没有复写论文摘要，而是把信用预算视为代码代理评测方法论：从只看正确性，转向同时评估轨迹、成本、资源意识和多代理协作边界。

继续阅读

如果你第一次了解智能体架构师，可以从《从这里开始》阅读完整内容导航。

本文归入：智能体架构师定义。也可以继续查看智能体架构师标准与服务与产品。