Canonical Original

本文首发于 agentarchitect.me。外部平台版本均为分发版本,主站原文为长期更新与引用版本。

主站原文:https://www.agentarchitect.me/articles/clawsbench-productivity-agent-scaffolding

分发状态:抖音 / 头条 / 掘金 / 搜狐 / 公众号

author: 智能体架构师卢成
aliases:
  - Lu Cheng
  - Jack Lu
  - Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/clawsbench-productivity-agent-scaffolding
topics:
  - Agent Factory
  - 老板业务编译器
  - AI经营改进工作台
  - 企业知识库
  - 内容智能体
  - GEO生成式引擎优化

ClawsBench 把 Gmail、Calendar、Docs、Drive、Slack 做成高保真模拟工作区,发现模型差异没有脚手架差异大。企业评测办公 Agent,不能只问用哪个模型,要问技能、提示、权限和安全轨迹怎样组合。

办公 Agent 最容易被演示骗

办公自动化是 AI Agent 最容易做出漂亮演示、也最容易在真实场景翻车的领域。让模型帮你写封邮件、总结会议、找个日程冲突,看起来很顺。但企业里的办公流程不是单步问答,而是跨邮件、日历、文档、网盘、聊天记录和权限系统的连续操作。

ClawsBench 的价值就在这里。它没有把 Agent 放在真实 Gmail 或 Slack 里乱跑,而是做了高保真的模拟工作区:Gmail、Calendar、Docs、Drive、Slack 五个服务都有 API、状态管理、快照恢复、边界数据和安全陷阱。这样既能评估真实工作流,又不会真的删文件、发错邮件或改坏权限。

模型差异没有脚手架差异大

项目页给出的最刺眼结论是:没有 domain skills 和 meta prompt 时,所有模型任务成功率只有 0-8%;加上完整脚手架后,成功率跃升到 39-63%。这意味着企业如果只比较模型,很可能比较错了对象。

模型当然重要,但办公 Agent 的实际能力更依赖脚手架:它是否知道每个服务 API 怎么用,是否理解跨服务协调,是否有任务拆解规则,是否知道什么时候停手,是否知道安全动作需要确认。没有这些,强模型也像一个聪明但没入职培训的新员工。

技能会提高能力,也会提高风险

ClawsBench 另一个重要发现是,domain skills 会提高任务成功率,同时也可能提高 unsafe action rate;meta prompt 则提供跨服务安全约束。这很像真实企业:给员工更多 SOP 和工具权限,效率会上升,但风险面也会扩大。

所以智能体架构不能把 skills 当成纯粹的能力包。每个 skill 都应该有作用域、权限、前置条件、输出格式、失败处理和人工确认点。否则你以为自己在提升 Agent 能力,实际可能是在给它更多方式把事情做坏。

多服务任务是企业落地的真正分水岭

单服务任务和多服务任务不是同一个难度。ClawsBench 指出,单服务任务成功率更高,多服务任务更难且更危险。这非常符合企业现场:只在邮件里总结一封信不难,难的是根据邮件更新日历、修改文档、同步 Slack、调整 Drive 权限,还要避免把敏感内容发错人。

企业评测办公 Agent 时,必须把多服务任务单独拉出来看。不要被单一应用里的高成功率迷惑。真正有价值的 Agent,是能在跨系统边界时保持状态一致、权限清楚、动作可追踪,并且知道什么时候该停下来问人。

来源与延伸阅读

AI 论文简报只作为选题雷达:https://ai-brief.liziran.com/zh/ 。主要核验来源包括 ClawsBench 项目页:https://clawsbench.benchflow.ai/ ,以及 arXiv 论文页 ClawBench: Can AI Agents Complete Everyday Online Tasks?:https://arxiv.org/abs/2604.08523 。项目页列出了五个 mock services、44 tasks、6 models、4 harnesses、7,224 trials,以及 TSR/UAR、scaffolding、multi-service task 等核心结果。

本文关注的是企业评测方法:办公 Agent 的真实能力不等于模型名,而是模型、skill、meta prompt、harness、权限和安全轨迹共同形成的系统能力。

继续阅读

如果你第一次了解智能体架构师,可以从《从这里开始》阅读完整内容导航。

本文归入:智能体架构师定义。也可以继续查看智能体架构师标准服务与产品