基于图的框架：连接工具依赖与领域知识，实现上下文规划

🔥🔥🔥🔥🔥AI工具规划

基于图的框架：连接工具依赖与领域知识，实现上下文规划

#AI工具规划#知识图谱#冷启动问题#领域知识#示例生成

论文原始标题：Bridging Tool Dependencies and Domain Knowledge: A Graph-Based Framework for In-Context Planning

论文作者：Authors: Shengjie Liu, Li Dong, Zhenyu Zhang

原始摘要：We present a framework for uncovering and exploiting dependencies among tools and documents to enhance exemplar artifact generation. Our method begins by constructing a tool knowledge graph from tool schemas, including descriptions, arguments, and output payloads, using a DeepResearch-inspired analysis. In parallel, we derive a complementary knowledge graph from internal documents and SOPs, which is then fused with the tool graph. To generate exemplar plans, we adopt a deep-sparse integration strategy that aligns structural tool dependencies with procedural knowledge. Experiments demonstrate that this unified framework effectively models tool interactions and improves plan generation, underscoring the benefits of linking tool graphs with domain knowledge graphs for tool-augmented reasoning and planning.

翻译标题：基于图的框架：连接工具依赖与领域知识，实现上下文规划

翻译摘要：我们提出了一种框架，用于揭示和利用工具和文档之间的依赖关系，以增强示例工件的生成。我们的方法从工具模式中构建一个工具知识图谱，包括描述、参数和输出负载，使用一种受 DeepResearch 启发的分析方法。同时，我们从内部文档和 SOP 中推导出一个互补的知识图谱，并将其与工具图谱融合。为了生成示例计划，我们采用了一种深度-稀疏集成策略，将结构化的工具依赖与程序知识对齐。实验表明，这种统一的框架有效地建模了工具之间的交互，并提高了计划生成，强调了将工具图谱与领域知识图谱相结合在工具增强推理和规划中的优势。

智能问答：

Q1: 这篇论文试图解决什么问题？

论文针对“冷启动场景下，如何为复杂、领域专属的工具自动生成高质量 in-context planning（ICP）示例”这一核心问题展开。具体而言，其试图解决以下子问题：

工具依赖发现
真实业务工具（库存、监控、财报等）远比通用工具复杂，LLM 难以直接从 schema 中推断调用顺序。论文提出用 Deep Research 风格的两阶段流程（先自动抽取、再用 LLM-as-a-judge 过滤）构建工具知识图谱，显式刻画工具间的输入-输出依赖。

领域知识对齐
仅有工具图谱仍缺少“何时、为何”使用某工具的上下文。论文通过 GraphRAG 将内部文档/SOP 转化为领域知识图谱，并与工具图谱在统一图存储中融合，使“工具节点”与“操作步骤节点”互联互通。

示例计划生成
冷启动阶段缺乏人工标注的示例。论文利用融合后的统一图，采用 HippoRAG2 的 Dense–Sparse 框架：

Dense 部分：文档/SOP 子图提供任务背景与步骤级知识；
Sparse 部分：工具子图提供调用依赖与数据流约束。
通过 embedding 检索 + Personalized PageRank 产生 query-specific 子图，再由 LLM 生成可直接用于 ICP 的 exemplar artifacts，缓解冷启动问题并提升后续规划准确率。

Q2: 有哪些相关研究？

以下研究按主题分组，概括了论文直接或间接引用的相关工作，并指出其与本工作的关联。

工具使用与规划范式

ReAct (Yao et al., 2023) —— 交替推理-行动循环，奠定 LLM 工具调用范式。
LLM Compiler (Kim et al., 2024) —— 将工具调用建模为 DAG，支持并行执行。
CodeAct / CodePlan (Wang et al., 2024; Wen et al., 2024) —— 用可执行 Python 代码片段作为高层计划，方便运行时一次性解析。
ReWOO (Xu et al., 2023) —— 把“推理”与“观测”解耦，降低 token 开销。
ToolPlanner (Liu et al., 2025) —— 先按 toolkit 聚类再分层规划，出错时局部重规划。
Predictive-Decoding (Ma et al., 2024) —— 受模型预测控制启发，减少短视错误。
ReasonFlux (Yang et al., 2025) —— 在模板槽位上推理，通过强化学习优化规划准确率。
ToolRL (Qian et al., 2025) —— 系统研究多轮工具场景下的奖励设计，提升泛化。
Kimi K2 (Kimi Team, 2025) —— 长上下文+多阶段 RL，在软件工程、数学等多轮任务上取得 SOTA。
本工作继承“DAG/模板式”规划思路，但聚焦冷启动示例生成，而非在线规划。

工具依赖与图建模

早期工作将 API 调用视为 DAG，但未显式从 schema 中自动抽取依赖。
本文首次把 Deep Research 的“搜索-反思”循环改造成“抽取-判别”循环，用于领域工具依赖发现。

知识图谱与检索增强

GraphRAG (Edge et al., 2025) —— 从私有文档构建局部→全局图谱，支持查询聚焦摘要。
HippoRAG2 (Gutiérrez et al., 2025) —— 提出 Dense–Sparse 整合框架，用 Personalized PageRank 融合稠密向量与稀疏图信号。
本文直接采用 GraphRAG 构建领域知识图谱，并以 HippoRAG2 为生成管线，实现工具图与文档图的统一检索。

LLM-as-a-Judge

Gu 等 (2025) 综述了用 LLM 评估生成质量的方法。
本文用该机制过滤伪依赖，并在示例生成阶段做“计划覆盖度”评分。

基准与数据

ToolBench (Qin et al., 2023) —— 提供 16 k+ 真实 API 与三级指令（G1~G3）。
本文在 ToolBench 子集上模拟“领域工具+外部文档”场景，验证依赖抽取与示例生成效果。

冷启动与示例选择

Zhao 等 (2025) —— 通过动作序列相似度检索示例以改善规划。
本文与之互补：不依赖人工示例库，而是自动构建工具-文档融合图，再即时生成示例。

Q3: 论文如何解决这个问题？

论文将“冷启动场景下缺乏高质量 in-context planning 示例”拆解为三个可执行阶段，并给出对应技术路线。

构造工具知识图谱（解决“工具依赖不知道”）

把 Deep Research 的“搜索→反思”循环改造成“依赖抽取→LLM 判别”循环：

– 对任意工具对 (nTnin,nTnjn)n，用 LLM 一次性阅读双方 schema（描述、入参、出参 payload），生成候选依赖三元组。
– 再用同源 LLM 做二分类判断（LLM-as-a-judge），保留“nTnjn 确实需要 nTnin 输出”的边，得到无环工具图 nGntn=(nVntn,nEntn)n。
实现上采用 LangGraph 流水线，支持人机协同二次过滤。

注入领域知识图谱（解决“何时用工具不知道”）

用 GraphRAG 默认配置解析内部 SOP/文档，得到领域知识图 nGndn=(nVndn,nEndn)n。
在 Neptune 中执行知识融合：
– 统一实体 ID 空间；
– 新增跨图关系 _can_use_this_tool_output 把 nGndn 中的“步骤节点”连到 nGntn 的“工具节点”，形成统一图 nG=nGntn∪nGndn。n

生成示例计划（解决“没有示例”）

采用 HippoRAG2 的 Dense–Sparse 框架：
– Dense 组件：文档/SOP 子图提供任务背景与步骤级知识；
– Sparse 组件：工具子图提供调用顺序与数据流约束。
对每条生产查询 nqn：
用 Jina-v3 向量检索 top-k 工具三元组与 top-k 文档；
以检索结果为种子节点，在统一图 nGn 上执行 Personalized PageRank，得到 query-specific 子图 nGnqn；
将 nGnqn 序列化为带依赖关系的文本，喂给 LLM 生成可执行计划（exemplar artifact）；
产物存入向量库，供后续 ICP 直接检索使用。

通过“先建图、再融合、后生成”的闭环，论文在 ToolBench 子集上把二进制匹配准确率从 68% 提升到 77%，验证了该方法可在零人工示例条件下产出高质量规划模板，从而缓解冷启动问题。

Q4: 论文做了哪些实验？

论文在 ToolBench 子集上设计了两组核心实验，验证“依赖抽取”与“示例生成”两个环节的有效性，并补充一项消融分析。

工具依赖抽取实验

数据：从 TOOLBENCH G1/G2/G3 各随机采 1 000 条指令，共 3 000 条；按 ground-truth 计划过滤后得到 1 500 条真实工具依赖作为金标准。
做法：用同一流水线让 5 个不同 LLM（GPT-4o、Claude-4、Claude-3.7、DeepSeek-R1、Qwen3-8B）对全部 API 文档执行“抽取→判别”两步。
指标：Precision、Recall。
结果：
GPT-4o 取得 90.7% P / 80.5% R 的最佳综合表现；
仅 8 B 参数的 Qwen3-8B 仍达到 83.2% P / 80.7% R，说明框架对模型容量不敏感。

Dense–Sparse 示例生成实验

设置：以上一步检出的正确依赖为基础，构建统一知识图；对同一 3 000 条查询，用 Jina-v3 检索 top 文档与工具三元组 → Personalized PageRank 得子图 → 各 LLM 生成 exemplar 计划。
评估：
Binary Match Accuracy：生成计划与 ground-truth 工具序列完全一致的比例；
LLM-as-a-judge Score（0–2）：Nova Pro 3 按“覆盖度”给出的细粒度评分。
结果：
GPT-4o 77 % / 1.62 分位列第一；
Qwen3-8B 72 % / 1.58 分再次验证小模型亦可受益；
性能排序与依赖抽取阶段基本一致，表明子图质量比模型规模更关键。

消融：Personalized PageRank 的作用

对比“启用 PPR” vs “仅用向量检索”两种设置（GPT-4o）。
结果：去掉 PPR 后 Binary Match 从 77 % → 68 %，下降 9 个百分点； judge 分从 1.62 → 1.56。
分析：PPR 通过依赖边传播重要性，能召回被纯 embedding 掩盖的低频但关键工具（如 BacklogCheck），从而丰富子图并提升计划准确率。

综上，实验既验证了“自动依赖发现”的高精度，也证明了“工具图+文档图”融合后在冷启动示例生成上的实际增益，同时量化出 PPR 对性能的具体贡献。

Q5: 有什么可以进一步探索的点？

以下方向可被视为论文框架的自然延伸，亦是对其局限性的直接回应。

真实业务基准缺失

目前依赖金标准由 TOOLBENCH 的 DFS 计划反向标注，与真实世界 SOP 并不完全对齐。
可构建“领域工具依赖检测”专用评测集：邀请业务专家标注库存、财务、监控等场景的调用链，并引入时序、权限、配额等约束，形成多维度细粒度标签。

动态依赖与版本演化

论文假设工具 schema 静态；实际 API 会随版本新增字段或废弃输出。
探索增量图更新机制：
– 利用 schema diff 自动触发依赖再判断；
– 引入时间加权 PageRank，让历史依赖随时间衰减，实现“遗忘式”更新。

数值/语义约束感知

现有边仅表示“需要输出”，未刻画“字段取值范围”或“单位换算”等数值约束。
可扩展为属性图：在边上附加 nCnrangen,nCnunitn,nCnenumn 等属性，并在子图检索阶段加入约束可满足性过滤。

多模态输出利用

部分业务工具返回 PDF、图表或时序数据库指针。
研究跨模态依赖：让工具节点携带模态类型标记，引入“图像-表格-文本”异构图神经网络，提升对非结构化输出的利用度。

强化学习微调

目前示例生成依赖一次性 LLM 推理；错误无法自动回环。
可将生成计划转为多步决策过程：
– 状态 = 当前子图 + 已执行工具序列；
– 动作 = 下一个工具调用；
– 奖励 = 执行成功率与专家标注相似度。
采用 ToolRL 提出的延迟奖励+稀疏奖励混合策略，对 7 B/8 B 小模型进行轻量级 LoRA 微调，降低推理成本。

人机协同修正

论文仅在依赖判别阶段引入 Human-in-the-loop；示例生成完全自动。
可设计交互式规划界面：
– 业务人员拖动节点增删边，系统实时反馈“合规性”与“权限冲突”；
– 将修正结果作为在线增量监督信号，持续优化图嵌入与检索策略。

安全性与可解释性

金融、库存场景对“可解释调用链”有强合规需求。
研究因果依赖解释：在子图上附加 counterfactual 边权重，回答“若去掉 Tool X，输出指标将如何变化”，并生成自然语言审计报告。

跨租户迁移

同一套工具在不同租户间存在字段映射差异（如“SKU” vs “ItemID”）。
探索图对齐+迁移学习：先用本体对齐算法匹配租户间节点，再利用 meta-learning 快速生成新租户专属示例，实现“零样本”冷启动。

Q6: 总结一下论文的主要内容

论文提出一套“图驱动”冷启动框架，自动为复杂领域工具生成高质量 in-context planning 示例，核心内容可概括为 “两图一融合，三步生示例”：

两图

工具知识图：用 Deep Research 式“抽取-判别”流水线解析 schema，显式刻画工具间输入-输出依赖。
领域知识图：用 GraphRAG 把内部 SOP/文档转化为步骤-规则图，回答“何时、为何”调用。

一融合

在 Neptune 中统一 ID 空间，新增 _can_use_this_tool_output 边，形成工具-文档异构大图，兼顾结构依赖与业务语境。

三步生示例

① 向量检索 top-k 工具三元组与文档 → ② 以检索节点为种子做 Personalized PageRank 得 query-specific 子图 → ③ LLM 在子图上生成可执行计划（exemplar），存入向量库供后续 ICP 直接检索。

实验在 TOOLBENCH 子集（3 000 query、1 500 真实依赖）上完成：

依赖抽取：GPT-4o 达 90.7% 精度、80.5% 召回；8 B 小模型亦超 80%。
示例生成：GPT-4o 二进制匹配 77 %，LLM-as-a-judge 1.62 分；去掉 PPR 立刻降 9 个百分点，验证图传播必要性。

结论：将工具结构图与业务知识图融合，可在零人工示例条件下显著提升规划质量，为复杂领域助手的冷启动提供可扩展方案。

阅读全文 →

🌟 今日前沿论文 · 2025年10月28日

基于图的框架：连接工具依赖与领域知识，实现上下文规划