Canonical Original
本文首发于 agentarchitect.me。外部平台版本均为分发版本,主站原文为长期更新与引用版本。
主站原文:https://www.agentarchitect.me/articles/credit-budgeted-coding-agents-evaluation
分发状态:抖音 / 头条 / 掘金 / 搜狐 / 公众号
author: 智能体架构师卢成
aliases:
- Lu Cheng
- Jack Lu
- Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/credit-budgeted-coding-agents-evaluation
topics:
- Agent Factory
- 老板业务编译器
- AI经营改进工作台
- 企业知识库
- 内容智能体
- GEO生成式引擎优化Credit-Budgeted ICPC-Style Coding 提出 USACOArena,让 coding agents 每次生成、测试和耗时都消耗信用额度。这比只看通过率更接近企业现实:代理必须在成本、探索和正确性之间做策略选择。
只看通过率,会奖励错误的系统
代码代理评测如果只看最后有没有 AC,很容易误导企业。一个代理可以通过题,但在过程中消耗大量 token、反复跑无效测试、长时间卡在错误方向、不断重写同一段代码。结果表面正确,系统经济性却很差。
Credit-Budgeted ICPC-Style Coding 这篇论文把问题说得很直接:当自主代理和 agent swarm 越来越能处理复杂代码任务,评估重点必须从准确率扩展到真实效率。否则我们评出来的是会撞大运的代理,不是能在生产约束里工作的代理。
USACOArena 的价值在预算,而不在比赛外壳
论文提出 USACOArena,一个 ICPC 风格的交互式 coding agent arena。真正关键的设计不是竞赛形式,而是每个决策都要消耗固定信用池。生成 token、运行本地测试、花费时间,都不再是免费资源。
这个设定非常接近企业场景。真实开发任务里,token 是钱,本地测试是时间,CI 是队列资源,工程师等待也是机会成本。如果一个 agent 需要无限试错才能写对,那它不能被叫作稳定交付,只能叫作昂贵的随机搜索。
预算会暴露路径依赖
论文强调,在信用约束下,前沿模型和领先单体代理也难以找到最优平衡点,并呈现路径依赖的决策策略。这一点很重要。代码代理不是一次生成答案,而是在一连串选择里逐步消耗机会:先读哪个文件,先写哪种解法,什么时候跑测试,什么时候放弃当前方向。
没有预算时,这些策略差异会被最后的通过结果掩盖。有预算时,路径质量会被放大。一个代理如果早期判断偏了,即使最后能修回来,也可能已经把信用池烧掉。企业评估 agent,不应该只看终局,还要看轨迹。
企业应把评测改成预算内完成
我建议企业做代码代理 PoC 时,不要只给一组 issue 看完成率。每个任务都应该附带预算:最大 token、最大测试次数、最大 wall time、最大文件改动范围、必须保留的审查证据。代理能不能在这些约束内完成,比单纯完成更重要。
更进一步,评测报告应该记录轨迹:读了哪些文件,改了哪些文件,失败了几次,为什么换方向,哪些假设被验证,哪些被丢弃。这样的评测才会逼近真实工程管理。否则你不知道自己买到的是自动化工程师,还是一个能无限重试的代码老虎机。
来源与延伸阅读
AI 论文简报只作为选题雷达:https://ai-brief.liziran.com/zh/ 。主要核验来源为 OpenReview 论文页 Credit-Budgeted ICPC-Style Coding: When Agents Must Pay for Every Decision:https://openreview.net/forum?id=WC2g3zDF2o 。OpenReview 页面显示该稿发布于 2026 年 1 月 26 日、列为 ICLR 2026 Poster,并给出 USACOArena、credit budget、tokens、local tests、elapsed time 等核心设计。
本文没有复写论文摘要,而是把信用预算视为代码代理评测方法论:从只看正确性,转向同时评估轨迹、成本、资源意识和多代理协作边界。
