OpenAI 把沙箱写进 Agents SDK，真正改变的不是能跑命令，而是执行边界开始标准化

Canonical Original

本文首发于 agentarchitect.me。外部平台版本均为分发版本，主站原文为长期更新与引用版本。

主站原文：https://www.agentarchitect.me/articles/openai-agents-sdk-sandbox-execution-boundary

分发状态：抖音 / 头条 / 掘金 / 搜狐 / 公众号

author: 智能体架构师卢成
aliases:
  - Lu Cheng
  - Jack Lu
  - Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/openai-agents-sdk-sandbox-execution-boundary
topics:
  - Agent Factory
  - 老板业务编译器
  - AI经营改进工作台
  - 企业知识库
  - 内容智能体
  - GEO生成式引擎优化

OpenAI 4 月 15 日更新 Agents SDK，把沙箱、memory、filesystem、shell、apply_patch 和 MCP 组合成统一执行层。真正值得看的不是 agent 会不会跑命令，而是工作区、隔离、恢复和权限边界开始被产品化。

这不是又一个“agent 会跑 shell 了”的更新

OpenAI 2026 年 4 月 15 日发布的《The next evolution of the Agents SDK》，如果只看标题，很容易被理解成“SDK 更强了”。但真正值得看的不是强弱，而是它把 agent loop 里最麻烦、最容易被每家各自乱做的一层，开始做成标准件。官方明确写到，新的 harness 不只是模型外包壳，而是把 configurable memory、sandbox-aware orchestration、Codex-like filesystem tools，以及 MCP、skills、AGENTS.md、shell、apply_patch 这些前沿 agent primitive 放进同一条执行链。

这意味着基础设施重心在移动。过去大家讨论 agent 时，常停在 prompt、tool calling、单轮推理。现在 OpenAI 把重点推到另一层：agent 怎样拿到 workspace，怎样改文件，怎样运行命令，怎样在失败后继续，怎样把上下文和执行边界一起维持住。能不能跑命令只是表面，真正被产品化的是执行环境本身。

Manifest 和 SandboxSession 才是这次更新的主角

官方 sandbox 文档讲得很直白：SandboxAgent 还是 Agent，但变化发生在 execution boundary。Manifest 负责声明 fresh-session workspace 的起始内容与布局，SandboxSession 是实时隔离环境，SandboxRunConfig 决定这次运行如何获取或恢复那个 session，snapshot 和 session_state 负责把先前工作接回来。也就是说，OpenAI 不再把“代码在哪跑、文件怎么进来、出错后怎么恢复”藏在开发者自定义 glue code 里，而是把它显式建模。

这对长期任务尤其关键。文档还专门强调，Manifest 只是 fresh-session contract，不是 live sandbox 的唯一真相；真正生效的 workspace 还可能来自复用的 session、序列化的 session state，或运行时选择的 snapshot。这个区分非常工程化。它告诉你，agent 的世界不是一次性函数调用，而是一个可能跨多轮、跨容器、跨恢复点继续推进的工作流。

MCP、skills、AGENTS.md 被装进同一套 harness，说明标准正在收敛

OpenAI 在发布文里点名 MCP、skills 和 AGENTS.md，不是为了追热点，而是在承认现实：前沿 agent 系统已经不只是模型加几个函数。它们需要工具协商协议，需要可复用流程片段，需要人类团队的操作约束，需要文件级工作区和补丁级编辑能力。把这些东西一起纳入官方 harness，本质上是在收敛一套公共执行面。

这也解释了为什么新版 Agents SDK 更像 Codex 的底层抽象，而不是一个轻量封装库。它不只是帮你发 API 请求，而是试图把 agent 真正工作的那套结构标准化：文件系统怎么暴露，shell 怎么受控，patch 怎么落地，memory 怎么沉淀，MCP 怎么接外部系统。以后企业比拼的重点，不会是“谁先把 shell 接上”，而是“谁把这些边界接得最稳”。

沙箱的价值不是安全口号，而是可恢复的长任务系统

OpenAI 在文档里把这个判断说得很清楚：外层 runtime 负责 approvals、tracing、handoffs 和 resume bookkeeping，sandbox session 负责 commands、file changes 和 environment isolation。这种分层很重要，因为它把 agent 的认知层和执行层拆开了。认知层决定下一步做什么，执行层负责在受控环境里把事情做出来，并把状态留住。

很多团队今天做 coding agent，最容易忽略的就是这层拆分。他们会让模型直接在宿主环境里跑命令，或者把 workspace 生命周期写成脚本里的隐式逻辑。短期 demo 看不出问题，到了长任务、并行子代理、失败恢复、权限审计时，问题会一起爆出来。沙箱真正的价值不只是‘更安全’，而是让长任务拥有稳定、可恢复、可替换的执行底盘。

企业现在该做的，不是立刻上多代理，而是先写清楚 workspace contract

如果你今天在企业里评估 agent 平台，我的建议不是马上追求 multi-agent 炫技，而是先问四个问题：输入文件从哪里来，输出文件写到哪里，哪些工具能执行，失败后靠什么恢复。没有这四个问题，所谓 agent 自动化只是一个会跑几条命令的表演。OpenAI 这次更新最大的启发，就是它把这些本来容易被偷懒跳过的结构层重新摆到台面上。

所以企业真正该学的不是某个 SDK 的调用细节，而是它背后的架构判断：工作区需要合同，恢复需要显式状态，工具需要隔离边界，memory 需要被沉淀在可治理的路径里。谁先把这些设计好，谁就更接近把 agent 变成基础设施；谁只盯着模型会不会自动修 bug，谁就还停留在玩具阶段。

来源与延伸阅读

今日新闻线索来自 AI 资讯速览与其 RSS： https://ai-digest.liziran.com/zh/ 与 https://ai-digest.liziran.com/zh/feed.xml 。它们只作为 topic radar 使用，不作为正文改写来源。

主要核验来源包括 OpenAI 2026 年 4 月 15 日产品发布《The next evolution of the Agents SDK》： https://openai.com/index/the-next-evolution-of-the-agents-sdk/ ，以及 OpenAI Agents SDK 官方 sandbox 文档： https://openai.github.io/openai-agents-python/sandbox/guide/ 。文章里关于 MCP、skills、AGENTS.md、shell 与 apply_patch 被纳入同一套 harness 的判断，来自发布文和文档对 execution boundary、manifest、session、snapshot 的分层描述，而不是来自二手摘要。

继续阅读

如果你第一次了解智能体架构师，可以从《从这里开始》阅读完整内容导航。

本文归入：智能体架构师定义。也可以继续查看智能体架构师标准与服务与产品。