Canonical Original
本文首发于 agentarchitect.me。外部平台版本均为分发版本,主站原文为长期更新与引用版本。
主站原文:https://www.agentarchitect.me/articles/swe-chat-github-proof-vibe-coding
分发状态:头条 / 百家号 / 知乎 / 搜狐 / CSDN
author: 智能体架构师卢成
aliases:
- Lu Cheng
- Jack Lu
- Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/swe-chat-github-proof-vibe-coding
topics:
- Agent Factory
- 老板业务编译器
- AI经营改进工作台
- 企业知识库
- 内容智能体
- GEO生成式引擎优化SWE-chat 的价值,不在于又给行业做了一个漂亮数据集,而在于它第一次把真实编码代理会话和 git 历史放在一起看。结果非常不浪漫:全托管 vibe coding 变多了,但 agent 代码只有 44% 留进提交,44% 回合发生用户打断或纠正,安全性还更差。
大家都在讲 Vibe Coding,但以前很少有人拿证据讲
编码代理爆发后,最流行的叙事之一就是 Vibe Coding。很多人把它讲得像一种新时代生产方式,好像开发者只要提目标、看结果,系统自然会把代码稳稳写完。问题是,在这套叙事流行之前,行业几乎没有足够大规模的真实使用证据。
SWE-chat 的重要性,就在于它终于把真实世界里的编码代理会话和 git 历史绑在一起。它目前覆盖 200 多个公开 GitHub 仓库、6000 多场会话、63000 多条用户提示、355000 多次 agent 工具调用,以及 270 万条记录的交互痕迹。它不再问“模型在 benchmark 上多强”,而是问“人到底怎么用 agent,最后真正留下了什么”。
这正是我最看重的证据类型。因为只看 benchmark,你看到的是精心设计的终点;看 git 历史和对话轨迹,你才看到真实协作里不断返工、纠正、打断和放弃的成本。
最刺眼的数字,不是 40.8%,而是后面的 44%、44% 和 1.4%
很多人会先记住 40.8% 这个数字:现在已经有接近四成会话是几乎全 agent 写码的 vibe coding 模式。这当然说明 adoption 在上升,但如果只记住这一点,就会被流量叙事带偏。更关键的数字是后面那几个:只有 44.3% 的 agent 代码最终进入提交;44% 的回合里用户会打断、纠正或报告失败;而 agent 主动请求澄清的比例只有 1.4%。
这三个数字放在一起,才是真实工作流。它们说明编码代理并没有因为“更会写”就自动变成低摩擦协作者。相反,很多时候它依然需要人类不断修正方向、纠错和收尾,而它自己却不够频繁地承认不确定性。
我一直觉得,真正危险的不是 agent 犯错,而是 agent 在不确定时仍然装得很确定。SWE-chat 这组数据基本把这个问题量化了。
真正高效的协作,不是全托管,而是可纠偏的协作态
SWE-chat 还给出了一个很有价值的结构判断:真实协作里存在 human-only、collaborative 和 vibe coding 三种模式,其中 collaborative 反而是最 cost-efficient 的。也就是说,最有效的状态不是让 agent 把一切都包了,而是让它和人形成可纠偏、可接力的共同作者关系。
这和很多团队今天追求的 KPI 正好相反。不少人会拿“agent 写了多少代码”当成进展指标,仿佛代码作者署名越偏向 agent,系统就越先进。SWE-chat 给出的现实更冷:agent 写得更多,不代表你交付得更快、更稳、更安全,反而可能意味着更多 token 被花在最后不会被保留的代码上。
对企业来说,这个发现非常关键。因为它直接关系到预算、审查强度和团队心智模型。你要设计的是协作架构,而不是写码占比表演。
下一代代码代理应该盯的,是 GitHub 证据,不是宣传口号
如果一个团队真的想把编码代理做进生产,就该从 SWE-chat 这类证据倒推自己的指标体系。至少要持续看四个东西:第一,agent 产出被接受进提交的比例;第二,用户纠正或打断的频率;第三,每千行提交新引入的漏洞数;第四,每条有效提交背后的 token 与工具成本。
这些指标比“今天解决了几个 benchmark 任务”更像真实经营数据。因为它们直接对应人机协作的摩擦、返工、风险和成本。GitHub 提交历史、review 痕迹、工具调用日志,才是代码代理到底值不值钱的证据面。
我并不反对 Vibe Coding,我反对的是把它当作天然更先进的默认答案。SWE-chat 已经给出非常明确的提醒:全托管写码是一种协作模式,不是一种免费升级。它有明确代价,而且这些代价会落在接受率、安全性和返工量上。
来源与延伸阅读
AI 论文简报与 RSS 只作为选题雷达使用:https://ai-brief.liziran.com/zh/ 和 https://ai-brief.liziran.com/zh/feed.xml 。它们只帮助发现论文,不参与正文写作。
主要核验来源包括 SWE-chat 官方站点:https://www.swe-chat.com/ ,以及 arXiv 页面《SWE-chat: Coding Agent Interactions From Real Users in the Wild》:https://arxiv.org/abs/2604.20779 。文中关于 200+ 仓库、6000+ 会话、63000+ 提示、355000+ 工具调用、40.8% vibe coding、44.3% 留存、44% 打断和 1.4% 澄清率的内容,均来自这些一手来源。
