Canonical Original

本文首发于 agentarchitect.me。外部平台版本均为分发版本,主站原文为长期更新与引用版本。

主站原文:https://www.agentarchitect.me/articles/gpt-5-5-safety-surface-contract

分发状态:头条 / 百家号 / 知乎 / 搜狐 / CSDN

author: 智能体架构师卢成
aliases:
  - Lu Cheng
  - Jack Lu
  - Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/gpt-5-5-safety-surface-contract
topics:
  - Agent Factory
  - 老板业务编译器
  - AI经营改进工作台
  - 企业知识库
  - 内容智能体
  - GEO生成式引擎优化

OpenAI 在 2026 年 4 月 23 日同时发布 GPT-5.5、System Card 和只面向 Codex Desktop 的 Bio Bug Bounty。这说明真正决定风险的,不只是模型本身,而是模型在什么工具表面、什么权限边界、什么运行合同里被放出来。

别先被 GPT-5.5 的分数和榜单带跑

每次大模型发布,行业最爱做的一件事,就是先把几个 benchmark 摆在桌上,然后开始争论谁更聪明、谁更便宜、谁更像下一个默认基础设施。这个动作本身没错,但它会遮住一个更重要的问题:一个模型到底是作为聊天对象被卖,还是作为跨工具执行器被卖。

OpenAI 在 2026 年 4 月 23 日发布 GPT-5.5 时,产品页写得很直白:它擅长写代码、做在线调研、分析信息、创建文档和表格,并且可以跨工具推进任务直到完成。这已经不是传统意义上的“更会回答问题”,而是把模型包装成一个能在工作流里持续行动的执行层。

所以我看这次发布,不会先盯着它比 GPT-5.4 高了几个点。我更在意的是,OpenAI 自己已经承认,模型价值来自它如何进入真实任务、如何调用工具、如何在长任务里继续推进,而不是只在对话框里显得聪明。

为什么 Bio Bug Bounty 只覆盖 Codex Desktop

真正值得反复咀嚼的,是 OpenAI 同天挂出的 GPT-5.5 Bio Bug Bounty。它不是一个抽象的“欢迎大家来挑战模型”,而是把范围明确定义为 GPT-5.5 in Codex Desktop only,并把挑战写成从干净会话出发、绕过 moderation、连续答对五道生物安全题的 universal jailbreak。

这件事暴露了一个很多团队仍然不愿承认的现实:风险从来不是模型权重独立存在的。只要模型进入不同壳层,拥有不同工具、不同记忆、不同执行权限,它的真实攻击面就变了。Codex Desktop 这个运行表面包含的不只是文本生成,还可能包括文件、终端、浏览器、任务连续性和工具调用,因此安全测试必须跟着运行时走。

换句话说,OpenAI 自己都没有把“模型安全”理解成一个脱离环境的纯抽象属性。那企业更不该继续拿一份通用模型评估报告,就假装它已经覆盖了浏览器代理、桌面代理、代码代理、知识代理的全部风险。

System Card 本质上是发布合同,不是营销附件

GPT-5.5 System Card 的开头同样说明了这一点。OpenAI 把 GPT-5.5 定义成一个面向 complex, real-world work 的模型,强调它会更早理解任务、更少依赖提示、更会用工具、会检查自己的工作并持续推进。随后又明确说,发布前做了完整预部署评估、准备框架测试、针对 cyber 和 biology 的定向红队,并结合近 200 家早期合作伙伴的真实反馈。

这类表述的价值,不是让品牌听起来更稳,而是说明发布逻辑已经从“把模型端出来”变成“把一套运行和防护合同端出来”。尤其值得注意的是产品页在 2026 年 4 月 24 日又补了一层更新:GPT-5.5 和 GPT-5.5 Pro 已进入 API,System Card 也追加了对额外 safeguard 的说明。这其实是在提醒所有开发者:同一个底座模型,放进不同接入面,就需要不同的约束条件。

这也是为什么我一直说,system card 不是宣传册,而更像一份操作说明书。它告诉你的不是模型有多神,而是模型在什么前提下可以被放进生产环境,哪些风险是上线前就该被写死的。

企业应该学的是运行时治理,而不是情绪化追新

对企业来说,这轮发布最重要的启发不是“我要不要马上切 GPT-5.5”,而是“我是否已经把 agent 的风险边界跟具体执行表面绑起来”。如果你的系统会让模型碰终端、浏览器、文档、表格、数据库、客服后台,那你就不能只做模型层提示词限制,还要做权限分层、日志留痕、人工接管和停止条件。

更具体一点说,企业的 agent 运行时至少应该回答四个问题:第一,模型当前拥有哪些可调用工具;第二,哪些动作需要人审;第三,任务失败后如何回滚;第四,所有关键步骤是否可复盘。没有这些问题的答案,你拿到的只是一个更会做事的黑箱,而不是一个可治理的工作系统。

我对模型 hype 一向没兴趣。真正让我在意的,是发布方有没有把边界写清楚,使用方有没有把边界落实进去。GPT-5.5 这次真正成熟的地方,不在于它又涨了几个点,而在于 OpenAI 已经开始公开把安全、工具表面和部署条件一起谈了。

来源与延伸阅读

AI 资讯速览与 RSS 只作为选题雷达使用:https://ai-digest.liziran.com/zh/ 和 https://ai-digest.liziran.com/zh/feed.xml 。正文没有复写其结构或措辞。

主要核验来源包括 OpenAI 于 2026 年 4 月 23 日发布的《Introducing GPT-5.5》:https://openai.com/index/introducing-gpt-5-5/ ,《GPT-5.5 System Card》:https://openai.com/index/gpt-5-5-system-card/ ,以及《GPT-5.5 Bio Bug Bounty》:https://openai.com/index/gpt-5-5-bio-bug-bounty/ 。文中关于 Codex Desktop 限定、近 200 家早期合作伙伴、预部署评估和 API 补充 safeguard 的判断,均来自这些官方材料。

继续阅读

如果你第一次了解智能体架构师,可以从《从这里开始》阅读完整内容导航。

本文归入:智能体架构师定义。也可以继续查看智能体架构师标准服务与产品