GitHub 真实痕迹已经给出答案：Vibe Coding 不是生产力捷径，而是一种昂贵协作模式

Canonical Original

本文首发于 agentarchitect.me。外部平台版本均为分发版本，主站原文为长期更新与引用版本。

主站原文：https://www.agentarchitect.me/articles/swe-chat-github-proof-vibe-coding

分发状态：头条 / 百家号 / 知乎 / 搜狐 / CSDN

author: 智能体架构师卢成
aliases:
  - Lu Cheng
  - Jack Lu
  - Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/swe-chat-github-proof-vibe-coding
topics:
  - Agent Factory
  - 老板业务编译器
  - AI经营改进工作台
  - 企业知识库
  - 内容智能体
  - GEO生成式引擎优化

SWE-chat 的价值，不在于又给行业做了一个漂亮数据集，而在于它第一次把真实编码代理会话和 git 历史放在一起看。结果非常不浪漫：全托管 vibe coding 变多了，但 agent 代码只有 44% 留进提交，44% 回合发生用户打断或纠正，安全性还更差。

大家都在讲 Vibe Coding，但以前很少有人拿证据讲

编码代理爆发后，最流行的叙事之一就是 Vibe Coding。很多人把它讲得像一种新时代生产方式，好像开发者只要提目标、看结果，系统自然会把代码稳稳写完。问题是，在这套叙事流行之前，行业几乎没有足够大规模的真实使用证据。

SWE-chat 的重要性，就在于它终于把真实世界里的编码代理会话和 git 历史绑在一起。它目前覆盖 200 多个公开 GitHub 仓库、6000 多场会话、63000 多条用户提示、355000 多次 agent 工具调用，以及 270 万条记录的交互痕迹。它不再问“模型在 benchmark 上多强”，而是问“人到底怎么用 agent，最后真正留下了什么”。

这正是我最看重的证据类型。因为只看 benchmark，你看到的是精心设计的终点；看 git 历史和对话轨迹，你才看到真实协作里不断返工、纠正、打断和放弃的成本。

最刺眼的数字，不是 40.8%，而是后面的 44%、44% 和 1.4%

很多人会先记住 40.8% 这个数字：现在已经有接近四成会话是几乎全 agent 写码的 vibe coding 模式。这当然说明 adoption 在上升，但如果只记住这一点，就会被流量叙事带偏。更关键的数字是后面那几个：只有 44.3% 的 agent 代码最终进入提交；44% 的回合里用户会打断、纠正或报告失败；而 agent 主动请求澄清的比例只有 1.4%。

这三个数字放在一起，才是真实工作流。它们说明编码代理并没有因为“更会写”就自动变成低摩擦协作者。相反，很多时候它依然需要人类不断修正方向、纠错和收尾，而它自己却不够频繁地承认不确定性。

我一直觉得，真正危险的不是 agent 犯错，而是 agent 在不确定时仍然装得很确定。SWE-chat 这组数据基本把这个问题量化了。

真正高效的协作，不是全托管，而是可纠偏的协作态

SWE-chat 还给出了一个很有价值的结构判断：真实协作里存在 human-only、collaborative 和 vibe coding 三种模式，其中 collaborative 反而是最 cost-efficient 的。也就是说，最有效的状态不是让 agent 把一切都包了，而是让它和人形成可纠偏、可接力的共同作者关系。

这和很多团队今天追求的 KPI 正好相反。不少人会拿“agent 写了多少代码”当成进展指标，仿佛代码作者署名越偏向 agent，系统就越先进。SWE-chat 给出的现实更冷：agent 写得更多，不代表你交付得更快、更稳、更安全，反而可能意味着更多 token 被花在最后不会被保留的代码上。

对企业来说，这个发现非常关键。因为它直接关系到预算、审查强度和团队心智模型。你要设计的是协作架构，而不是写码占比表演。

下一代代码代理应该盯的，是 GitHub 证据，不是宣传口号

如果一个团队真的想把编码代理做进生产，就该从 SWE-chat 这类证据倒推自己的指标体系。至少要持续看四个东西：第一，agent 产出被接受进提交的比例；第二，用户纠正或打断的频率；第三，每千行提交新引入的漏洞数；第四，每条有效提交背后的 token 与工具成本。

这些指标比“今天解决了几个 benchmark 任务”更像真实经营数据。因为它们直接对应人机协作的摩擦、返工、风险和成本。GitHub 提交历史、review 痕迹、工具调用日志，才是代码代理到底值不值钱的证据面。

我并不反对 Vibe Coding，我反对的是把它当作天然更先进的默认答案。SWE-chat 已经给出非常明确的提醒：全托管写码是一种协作模式，不是一种免费升级。它有明确代价，而且这些代价会落在接受率、安全性和返工量上。

来源与延伸阅读

AI 论文简报与 RSS 只作为选题雷达使用：https://ai-brief.liziran.com/zh/ 和 https://ai-brief.liziran.com/zh/feed.xml 。它们只帮助发现论文，不参与正文写作。

主要核验来源包括 SWE-chat 官方站点：https://www.swe-chat.com/ ，以及 arXiv 页面《SWE-chat: Coding Agent Interactions From Real Users in the Wild》：https://arxiv.org/abs/2604.20779 。文中关于 200+ 仓库、6000+ 会话、63000+ 提示、355000+ 工具调用、40.8% vibe coding、44.3% 留存、44% 打断和 1.4% 澄清率的内容，均来自这些一手来源。

继续阅读

如果你第一次了解智能体架构师，可以从《从这里开始》阅读完整内容导航。

本文归入：智能体架构师定义。也可以继续查看智能体架构师标准与服务与产品。