Corpus2Skill 给 RAG 换了问题：不是先检索再生成，而是先学会在知识树里导航

Canonical Original

本文首发于 agentarchitect.me。外部平台版本均为分发版本，主站原文为长期更新与引用版本。

主站原文：https://www.agentarchitect.me/articles/corpus2skill-navigable-rag-skill-tree

分发状态：抖音 / 头条 / 掘金 / 搜狐 / 公众号

author: 智能体架构师卢成
aliases:
  - Lu Cheng
  - Jack Lu
  - Agent Architect Lu Cheng
canonical_url: https://www.agentarchitect.me/articles/corpus2skill-navigable-rag-skill-tree
topics:
  - Agent Factory
  - 老板业务编译器
  - AI经营改进工作台
  - 企业知识库
  - 内容智能体
  - GEO生成式引擎优化

Corpus2Skill 这篇 4 月 16 日提交的论文，不是简单优化 reranker，而是直接重写了 RAG 的观察面：让 agent 在服务时看到知识树、按层钻取，再取全文，而不是被动吃检索结果。

传统 RAG 最大的盲点，不是召回率，而是知识结构不可见

多数人在讨论 RAG 时，习惯把问题缩成检索精度：embedding 选谁，reranker 用什么，chunk 怎么切，召回几条。但 Corpus2Skill 这篇 2026 年 4 月 16 日提交到 arXiv 的论文，换了一个更扎实的问题：传统 RAG 把模型变成 search result consumer。它只能看到被系统挑出来的几段文本，却看不到语料库本身是怎么组织的，也不知道还有哪些分支尚未探索。

这其实是 agent 场景里的核心缺陷。一个真正做多步问答或企业知识导航的 agent，不只需要拿到‘最相关的几个片段’，它还需要知道自己现在站在哪一层、是否走错了路、还有哪些主题没看、哪些线索应该回退重查。如果知识结构对模型完全不可见，所谓 agentic RAG 很多时候只是把被动检索包成多轮调用。

Corpus2Skill 的关键动作：先离线编译，再在线导航

论文的核心做法很清楚：先在 compile time 把文档语料做 embedding、层级聚类、摘要与标签生成，物化成 tree of navigable skill files；到了 serve time，不再让模型直接吃检索结果，而是让它先看整个知识树的鸟瞰摘要，再逐层钻入分支，最终按文档 ID 把需要的全文取出来。这个变化看起来像实现细节，其实是在重写 agent 的观察面。

一旦模型能看见层级结构，它就不再只是被系统喂结果，而是可以主动决定往哪条支路深入、何时回退、如何跨分支组合证据。论文在 WixQA 上报告说，Corpus2Skill 全面优于 dense retrieval、RAPTOR 和 agentic RAG baselines。对我来说，这个结果的意义不只是分数，而是证明结构化导航本身就是一种能力增益。

这不是“不要检索”，而是把检索从主角降回配角

很多人看到标题里的 Don’t Retrieve, Navigate，会误以为作者在否定检索。其实不是。它真正否定的是‘先检索、再让模型被动消费片段’这个默认流程。Corpus2Skill 不是完全不要取文档，而是把取文档动作放到导航之后，让检索变成 agent 自主路径选择的一部分，而不是整个系统对知识访问的唯一视角。

这和企业知识库的现实很吻合。真正让客服、运营、售后、实施团队痛苦的，往往不是某条文档找不到，而是整个知识库结构混乱、主题边界不清、多个相关文档散落不同角落。你给模型一个 vector DB，并不能自动解决结构混乱；有时候更稳的路线，恰恰是先把结构编译出来，让 agent 看见组织方式再行动。

GitHub 实现透露的现实代价：把重活前移，换服务时轻量化

官方 GitHub README 说得很明白：Corpus2Skill 可以把任意 document corpus 编译成 navigable skill hierarchy，serve time 不需要 embeddings、vector stores 或 BM25。agent 通过读取 SKILL.md 与 INDEX.md 文件导航主题，再按需获取全文。这个实现选择非常值得注意，因为它说明作者不是只在论文里谈概念，而是真的把 serve time 依赖压缩掉了。

这背后的代价也必须看清：系统把 embedding、cluster、summary、label 这些重活前移到了 compile time。也就是说，它更适合相对稳定、可周期重编译的企业知识库，而不是秒级剧烈变化的数据流。这个 tradeoff 不是缺点，而是边界。理解这个边界，远比简单喊‘下一代 RAG 不用向量库’靠谱得多。

企业怎么判断自己适不适合这条路

如果你的知识库高度稳定、主题层级明显、用户问题经常需要跨文档回溯，那么 Corpus2Skill 这类路线非常值得试。因为它强化的是 agent 的导航能力和知识结构可见性，特别适合客服知识库、产品文档、实施手册、政策条款这类需要上下位关系和回退路径的场景。

但如果你的数据高度实时，文档持续剧烈变化，或者知识根本还没形成像样的结构，那就不要把它当银弹。先把知识边界整理清楚，再决定要不要编译成 skill tree。RAG 的未来未必是统一答案，而是越来越多企业会发现：有些场景需要检索优化，有些场景需要导航能力，有些场景则先要补知识治理。

来源与延伸阅读

今日论文线索来自 AI 论文简报与其 RSS： https://ai-brief.liziran.com/zh/ 与 https://ai-brief.liziran.com/zh/feed.xml 。它们仅用作选题雷达。

主要核验来源包括 arXiv 论文页面《Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG》： https://arxiv.org/abs/2604.14572 ，以及官方 GitHub 仓库： https://github.com/dukesun99/Corpus2Skill 。文章关于 compile time 的层级聚类与总结、serve time 的 skill tree 导航、无需 embeddings/vector stores/BM25 的实现判断，均来自论文摘要与官方 README。

继续阅读

如果你第一次了解智能体架构师，可以从《从这里开始》阅读完整内容导航。

本文归入：智能体架构师定义。也可以继续查看智能体架构师标准与服务与产品。