OrchDAG:多轮交互中复杂工具编排的计划DAG
论文原始标题:OrchDAG: Complex Tool Orchestration in Multi-Turn Interactions with Plan DAGs
论文作者:Authors: Yifu Lu, Shengjie Liu, Li Dong
原始摘要:Agentic tool use has gained traction with the rise of agentic tool calling, yet most existing work overlooks the complexity of multi-turn tool interactions. We introduce OrchDAG, a synthetic data generation pipeline that models tool execution as directed acyclic graphs (DAGs) with controllable complexity. Using this dataset, we benchmark model performance and propose a graph-based reward to enhance RLVR training. Experiments show that the dataset presents a challenging but solvable benchmark, and the proposed reward is effective when combined with GRPO-style algorithms, highlighting the importance of leveraging topological structure and data complexity in multi-turn tool use.
翻译标题:OrchDAG:多轮交互中复杂工具编排的计划DAG
翻译摘要:随着代理工具调用的兴起,代理工具使用变得越来越普遍,但大多数现有工作忽略了多轮工具交互的复杂性。我们引入 OrchDAG,这是一个合成数据生成管道,将工具执行建模为具有可控复杂度的有向无环图(DAG)。使用这个数据集,我们对模型性能进行了基准测试,并提出了一种基于图的奖励来增强 RLVR 训练。实验表明,该数据集提出了一个具有挑战性但可解决的基准,并且当与 GRPO 类算法结合时,所提出的奖励是有效的,强调了在多轮工具使用中利用拓扑结构和数据复杂性的重要性。
智能问答:
Q1: 这篇论文试图解决什么问题?
论文针对现有智能体工具调用研究在“多轮交互”场景下的不足,提出并解决以下核心问题:
多轮工具交互的复杂性未被充分建模
现有工作大多聚焦单轮或简单链式调用,忽视了工业场景中常见的“工具依赖关系复杂、输出字段跨工具复用且字段名不一致、部分工具调用可能失败”等现实挑战。
缺乏可控复杂度的多轮评测数据
公开基准要么工具规模不足,要么缺少对“跨轮依赖、错误恢复、无关新查询”等典型多轮情形的系统覆盖,导致难以可靠评估或提升模型在复杂编排上的能力。
稀疏奖励阻碍强化学习有效训练
传统格式正确性或最终结果奖励在长序列、多依赖的任务中信号稀疏,无法指导模型逐步修正中间工具调用或依赖关系,造成强化学习采样效率低。
未充分利用工具执行图的结构信息
工具间的拓扑顺序和依赖关系天然构成有向无环图(DAG),但现有方法未将图结构显式引入奖励或训练目标,错失对“部分正确”中间状态的精细反馈。
为此,论文提出 OrchDAG 框架,通过“可控复杂度 DAG 数据合成 + 图编辑距离奖励”同时解决数据、评测与训练三大瓶颈,使模型在多轮、多工具、高依赖场景下具备可验证且可提升的推理与编排能力。
Q2: 有哪些相关研究?
以下研究按“工具编排范式”“多轮交互与规划”“强化学习奖励设计”“评测基准”四个维度归类,均与 OrchDAG 直接相关。
工具编排范式
LLM Compiler(Kim et al., 2024)
将工具调用显式建模为 DAG,支持并行执行,是 OrchDAG 图式执行的直接先驱。
Plan-and-Act / TinyAgent(Erdogan et al., 2024, 2025)
在边缘场景下继续沿用 DAG 规划,强调“先规划后执行”以降低延迟。
ReWOO(Xu et al., 2023)
把“推理计划”与“工具观测”解耦,减少 token 消耗;OrchDAG 的多轮复用机制借鉴了该解耦思想。
CodeAct / CodePlan(Wang et al., 2024; Wen et al., 2024)
用可执行 Python 代码表达多步工具调用,隐含 DAG 依赖,但未显式利用图结构进行训练信号设计。
ToolPlanner(Liu et al., 2025)
将工具聚类成 toolkit 级进行分层规划,支持 replan;OrchDAG 将其“层-层”思想形式化为 DAG 模板采样。
多轮交互与规划
τ-bench / τ²-bench / UserBench(Yao et al., 2024; Barres et al., 2025; Qian et al., 2025)
逐步增加交互复杂度:结构化对话→双向协同→完全用户驱动。OrchDAG 的多轮失败恢复与跨轮依赖场景与 τ²-bench 的“双端控制”高度一致。
Predictive-Decoding(Ma et al., 2024)
引入模型预测控制缓解早期规划错误,强调非短视规划;OrchDAG 的 GED 奖励同样对“局部修正”给予非零反馈,实现类似非短视效果。
ReasonFlux(Yang et al., 2025)
基于模板字段的多步推理并用 RL 优化“动作完成度”;OrchDAG 把“模板”升级为可采样 DAG,奖励也从“完成度”细化为“图相似度”。
强化学习奖励设计
ToolRL(Qian et al., 2025)
系统研究粒度、时序结构、信号类型对工具学习的影响,提出格式/正确性/参数匹配三元奖励;OrchDAG 指出该奖励在复杂 DAG 下稀疏,进而引入基于 GED 的稠密奖励。
GRPO / DAPO / GiGPO(Shao et al., 2024; Yu et al., 2025; Feng et al., 2025)
群体相对策略优化及其变体,为 OrchDAG 的 RLVR 训练提供算法底座;论文通过熵塌陷实验验证 DAPO 可缓解过自信问题。
OTC(Wang et al., 2025)
在奖励中显式权衡“准确率 vs 调用成本”;OrchDAG 的 GED 奖励隐含成本因素(边/节点删除代价),但侧重拓扑正确性。
评测基准与数据合成
APIGEN / TOOLACE(Liu et al., 2024; Liu et al., 2025)
提供高质量真实 API 及其调用链,是 OrchDAG 合成 DAG 的“种子工具”来源。
BFCL v3 / ACEBench(Patil et al., 2025; Chen et al., 2025)
当前最全面的函数调用 leaderboard,支持多语言、并行/串行调用;OrchDAG 在 DAG 预测任务上与 BFCL 的 AST 评估方法兼容,但额外覆盖多轮失败与跨轮依赖。
StableToolBench(Guo et al., 2024)
针对大模型工具学习稳定性问题构建的 L1/L2/L3 三级基准;OrchDAG 在其上的零样本迁移实验验证了图奖励的泛化性。
xLAM / Llama-Nemotron(Zhang et al., 2024; Bercovich et al., 2025)
提出“大动作模型”概念并开源一系列专门用于函数调用的模型,为 OrchDAG 提供基线对比;OrchDAG 的 Qwen2.5-7B 经图奖励训练后在 StableToolBench 上逼近或超过 xLAM 报告结果。
Q3: 论文如何解决这个问题?
论文将“多轮、复杂、可容错”的工具编排问题拆解为数据–评测–训练三阶段,对应给出可控制造–可验证难度–可稠密优化的系统性解法。
可控复杂度数据:OrchDAG 合成管线
以真实 API(APIGEN+TOOLACE)为“种子”,先固定第一层节点,再按超参(height/width)随机采样拓扑序,生成 DAG 模板。
逐层合成后续工具:每条输入字段必须来自父节点输出,但字段名随机变化→模拟真实 schema 错位。
多轮扩展:在单轮 DAG 末尾挂接 3 个“虚拟后继节点”,分别对应
– 完全无关的新查询(新 DAG)
– 依赖前序输出/响应的追加查询(跨 turn 依赖)
– 工具失败后的重调度(局部子图重做)
规则级验证:JSON 合法性 → AST 匹配 → 字段级 schema 对齐 → 观测值回检,失败即重生成,保证每条样本可执行且答案确定。
可验证难度评测:DAG 预测基准
任务定义:给定系统提示(含干扰工具)与用户查询,模型输出完整 DAG(节点=工具调用,边=数据依赖)
指标:Pass@1(预测图与 Ground-Truth DAG 同构即正确)
实验结果:GPT-4o/Claude 4 仅 22–24 %,Qwen2.5-7B 仅 2 %,证明数据集“可解但足够难”,且更多示范样本不必然提升性能,凸显结构推理瓶颈。
可稠密优化训练:图编辑距离奖励 + GRPO
奖励设计
RnTotaln=nRnFormatn+α(1−nGED(ngnpredn,ngngtn)nGED(ngnpredn,∅)+GED(ngngtn,∅)n𝑅nTotaln=n𝑅nFormatn+n𝛼n(n1n−nGEDn(n𝑔npredn,n𝑔ngtn)nGEDn(n𝑔npredn,n∅n)n+nGEDn(n𝑔ngtn,n∅n)n – 节点等价规则:工具名+参数名+参数值整体算一个标签,允许部分边/节点修正即获得非零奖励→密集信号。
训练流程
– 单轮预热:Qwen2.5-7B + GRPO,8×100 A100,rollout 数 8 时 Acc 从 0 → 40.2 %。
– 多轮扩展:同一模型直接在整个训练集(30 % 多轮样本)上继续 RL,45 step 后在三种多轮场景分别取得 15.6 %、20.3 %、35.2 %,显著优于稀疏奖励基线(全程 0 %)。
熵塌陷治理:引入 DAPO 后,训练曲线不再 51 步崩溃,熵维持高位,验证“保持探索”对图级奖励的必要性。
泛化验证
在完全零样本的 StableToolBench 上,经 OrchDAG 图奖励训练的 7 B 模型在 L1–L3 各类任务上平均性能与 GPT-4-CoT 相当(±2 %),表明图结构奖励学到的规划能力可迁移到真实世界 API 场景。
综上,论文通过“可控 DAG 数据合成→图相似度密集奖励→GRPO 强化学习”闭环,首次把多轮工具编排的结构正确性显式引入训练信号,解决了以往奖励稀疏、评测片面、数据复杂度不可控的三大痛点。
Q4: 论文做了哪些实验?
实验围绕“难度验证 → 单轮训练 → 多轮扩展 → 熵塌陷分析 → 域外泛化”五级递进展开,核心结果均基于自建 OrchDAG 数据集与公开 StableToolBench 基准。
任务难度与可解性验证
设置:零样本 / One-shot / Three-shot,温度 0.1,10 次随机种子。
模型:GPT-4o、Claude-4、Claude-3.7、Claude-3.5、DeepSeek-R1、Qwen2.5-3B/7B,以及 Qwen3-4B/8B(pass@64)。
指标:Pass@1(预测 DAG 同构即正确)
结果:
最强 GPT-4o 仅 24 %,Claude-3.5 与 Qwen2.5-3B 近 0 %,证明数据集“可解但足够难”。
增加示范样本未显著抬升性能,揭示结构推理瓶颈而非提示不足。
单轮设置下稀疏奖励基线对比
训练:Qwen2.5-3B/7B + GRPO,ToolRL 原论文的 coarse / fine-grained 奖励,8×100 A100。
测试:OrchDAG 单轮测试集。
指标:
Acc/step:单步正确率
Acc/user_query:整图正确率
结果:
步级正确率 51–61 %,但整图准确率恒为 0 %,验证稀疏奖励无法形成全局一致规划。
单轮设置下图奖励消融实验
训练:Qwen2.5-7B + GRPO,变量包括
– 模型规模(3B vs 7B)
– KL 正则
– 熵正则
– rollout 数量(4 vs 8)
– 训练步数(15–60)
指标:Acc/user_query
结果:
7B > 3B;rollout=8 带来 10 %+ 绝对提升;最佳 40.2 %(60 step)。
二值奖励(完全匹配才给 1)同样设置下 15 step 后仍为 0 %,证明 GED 密集信号是关键。
多轮设置下性能与场景衰减分析
训练:同一 7B 模型在全训练集(30 % 多轮样本)继续 45 step。
测试:三种多轮场景
无关新查询
依赖前序输出
工具失败重调度
结果:
rollout=8 时,三场景分别为 15.6 %、20.3 %、35.2 %,均低于单轮 40.2 %,显示跨轮依赖与错误恢复更具挑战。
场景 3(独立新查询)下降最小,符合预期。
熵塌陷与算法稳定性分析
监测:训练过程中 DAG 奖励与策略熵。
对比:GRPO vs DAPO。
结果:
GRPO 在约 51 step 熵跌至 0.02 以下,伴随奖励骤降;
引入 DAPO 后熵维持 ≥0.1,奖励持续上升,验证高熵对图级探索的必要性。
域外泛化验证
基准:StableToolBench(L1/L2/L3 共 6 个子任务)。
设置:零样本,仅用 DAG 匹配判成功。
对比:GPT-4-0613 CoT 报告结果。
结果:
OrchDAG-7B 平均 47.1–50.7 %,与 GPT-4 差距 ≤2 %,最高在 L3 指令任务反超 2.6 %,表明图奖励学到的规划能力可迁移到真实世界 API。
Q5: 有什么可以进一步探索的点?
以下方向可沿“数据–算法–评测–系统”四条线继续深挖,均与原文结论直接衔接且尚未充分展开。
数据层面
1.1 隐式依赖建模
文件系统、数据库、容器等“副作用”型工具在轮次间留下隐状态,当前 DAG 仅显式数据流。
可引入“资源节点”与“锁/版本边”,把文件路径、表名、容器 ID 等作为特殊隐变量,扩展 GED 定义以包含资源生命周期。
1.2 动态工具集与版本漂移
真实 API 会随时间增减字段或改名。构造“版本随机扰动”数据,考察模型对 schema 漂移的鲁棒性,并设计对应奖励衰减策略。
1.3 更长 horizon 与多智能体
原文仅两轮;可生成 5–10 轮对话,并引入“工具调用权限隔离”的多角色场景(如用户-助手-审计员),验证跨角色 DAG 拼接与冲突检测能力。
算法层面
2.1 层次化图策略
先输出高层子图摘要(which toolkit),再展开为原子工具调用,形成“两级 DAG” 策略,降低大宽度图的搜索空间。
2.2 图神经网络价值函数
当前 GED 仅作奖励,可把 DAG 嵌入为向量,用 GNN 估计状态价值,实现更细粒度的 advantage 计算,减少高方差。
2.3 在线错误恢复奖励
对“运行时 500/timeout”节点,实时生成局部修复子图并继续 rollout,奖励=修复步数−1,鼓励最小改动恢复,而非重跑全图。
评测层面
3.1 人类偏好对齐
引入“成本-延迟-准确率”三维偏好标注,构建 BrADley-Terry 模型,检验图奖励是否与真实人工权衡一致。
3.2 可解释性诊断
记录每条边预测置信度,输出“最脆弱路径”热图,帮助开发者定位常错依赖类型(如跨 toolkit、字段名映射)。
3.3 安全与攻击视角
构造恶意查询诱导模型生成“看似正确但越权调用”的 DAG,评测现有奖励是否能抑制安全违规路径。
系统层面
4.1 并行执行加速
将 DAG 直接编译为 Ray/Temporal 工作流,在真实集群上跑真实 API,测量端到端延迟与货币成本,验证“图奖励→真实效率”映射。
4.2 增量图缓存
多轮场景下把已执行子图结果缓存为只读节点,下一轮仅对增量子图进行 RL 采样,减少重复 rollout 开销。
4.3 边缘-云协同
在边缘部署 3 B 学生模型做本地 DAG 粗规划,云端 70 B 教师模型做精修,联合优化通信轮数与图准确率,探索“边-云 DAG 蒸馏”方案。
Q6: 总结一下论文的主要内容
OrchDAG:面向多轮复杂工具编排的可控 DAG 数据生成与图奖励强化学习框架
模块t核心内容t关键结果
背景t现有工具调用基准忽视多轮、高依赖、字段错位与失败恢复等真实复杂性t亟需可控制造且难度足够的多轮数据与训练信号
数据t基于 APIGEN+TOOLACE 种子 API,按 height/width 超参随机采样拓扑序 → 逐层合成工具并强制“输出-输入字段名不一致”→ 挂接三种多轮节点(无关/依赖/失败)→ 规则验证保证可执行t1800 k 训练 / 250 k 测试;30 % 多轮;平均高度 2.5–2.7;验证通过率 60–70 %
评测t任务:给定含干扰工具的系统提示,模型输出完整 DAG(节点=调用,边=数据依赖)tGPT-4o pass@1 仅 24 %;Qwen2.5-7B 仅 2 %,证明“可解但足够难”
训练t提出图编辑距离(GED)密集奖励:nRnTotaln=nRnFormatn+α(1−nGED(ngnpredn,ngngtn)nGED(ngnpredn,∅)+GED(ngngtn,∅)n;7B 模型 + GRPO + 8×rollout 训练 60 step,单轮整图准确率 0 → 40.2 %t稀疏二值奖励全程 0 %;多轮三场景仍保持 15–35 %;DAPO 可抑制 51 step 熵塌陷
泛化t零样本迁移 StableToolBench(L1–L3)t平均性能与 GPT-4-CoT 差距 ≤2 %,最高 L3 任务反超 2.6 %
结论:显式利用工具执行 DAG 的拓扑结构并控制数据复杂度,可同时在“可验证难度”与“可稠密优化”两端取得突破,为构建鲁棒多轮智能体提供了一条数据-算法-评测一体化的新路径。
阅读全文 →