FunReason-MT 技术报告:克服多轮函数调用的复杂度障碍
论文原始标题:FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling
论文作者:Authors: Zengzhuang Xu, Bingguang Hao, Zechuan Wang, Yuntao Wen, Maolin Wang, Yang Liu, Long Chen, Dong Wang, Yicheng Chen, Cunyin Peng, Chenyi Zhuang, Jinjie Gu, Leilei Gan, Xiangyu Zhao, Shi Gu
原始摘要:Function calling (FC) empowers large language models (LLMs) and autonomous agents to interface with external tools, a critical capability for solving complex, real-world problems. As this ability becomes increasingly central to advanced AI systems, the need for high-quality, multi-turn training data to develop and refine it cannot be overstated. Existing data synthesis methods, such as random environment sampling or multi-agent role-playing, are not powerful enough to generate high-quality data in real-world environments. Practical challenges come in three folds: targeted model training, isolation of tool architecture, and multi-turn logical dependency. To address these structural deficiencies, we present FunReason-MT, a novel data synthesis framework for real-world multi-turn tool use. FunReason-MT resolves the complexity barrier in multi-turn FC data by employing 1) Environment-API Graph Interactions to gather varied high-quality trajectories, 2) Advanced Tool-Query Synthesis to simplify hard query construction, and 3) Guided Iterative Chain for sophisticated CoT generation. Evaluations on Berkeley Function-Calling Leaderboard (BFCLv3) demonstrate the power of our framework: a 4B model built upon FunReason-MT generated data achieves state-of-the-art performance among comparable-sized models, outperforming most close-source models.
翻译标题:FunReason-MT 技术报告:克服多轮函数调用的复杂度障碍
翻译摘要:函数调用(FC)使大型语言模型(LLMs)和自主代理能够与外部工具进行交互,这是解决复杂现实问题的关键能力。随着这一能力在先进 AI 系统中变得越来越重要,对高质量多轮训练数据的需求愈发重要。现有的数据合成方法,如随机环境采样或多智能体角色扮演,无法在真实环境中生成高质量数据。实际挑战包括:目标模型训练不可控、工具架构隔离、多轮逻辑依赖。为了解决这些结构性缺陷,我们提出了 FunReason-MT,这是一种用于真实场景下多轮工具使用的新型数据合成框架。FunReason-MT 通过以下方式解决多轮 FC 数据的复杂度障碍:1)环境-API 图交互收集多样高质量轨迹;2)高级工具-查询合成简化复杂查询构造;3)引导迭代链生成复杂的思维链(CoT)。在 Berkeley Function-Calling Leaderboard(BFCLv3)上的评估证明了我们框架的强大:基于 FunReason-MT 生成数据的 4B 模型在可比模型中达到了最先进的性能,优于大多数闭源模型。
智能问答:
Q1: 这篇论文试图解决什么问题?
论文旨在突破“多轮函数调用(multi-turn function calling)”场景下的数据质量瓶颈,具体表现为:
现有合成方法只能产生低复杂度、低多样性轨迹,导致模型在真实环境中遇到“性能天花板”;
三大结构性缺陷:
目标模型训练不可控:随机采样无法定向构造需要“目标复杂工具+其它工具”协同的多轮轨迹;
工具架构隔离:模块化工具接口使“逻辑跳跃式”困难查询难以自然出现;
多轮逻辑依赖缺失:RLLM 在未知环境中生成 CoT 时容易断裂,无法产出完整且正确的多轮轨迹。
FunReason-MT 通过自顶向下的范式,显式地“工程化”高复杂度、长尾轨迹,从而一次性解决上述三缺陷,为具备强工具调用能力的智能体提供可靠、可扩展的训练数据。
Q2: 有哪些相关研究?
论文在引言与实验部分对相关工作进行了定位,可归纳为以下三条主线:
随机环境采样
APIGen (Liu et al., 2024)
在静态 API 列表内随机组合调用,生成单轮或简单多轮样本,无法主动构造“目标复杂工具”参与的高难度轨迹。
多智能体角色扮演(MAS Role-Playing)
ToolACE-MT (Prabhakar et al., 2025)
ToolACE-2-8B、BitAgent-8B、watt-tool-8B 等同期开源模型
通过“用户-助手”双 agent 对话式演出来产生数据,容易陷入“happy path”,缺乏对复杂逻辑跳跃的显式控制,多样性受限。
可验证数据合成与课程式 RL
FunReason (Hao et al., 2025b)
提出单轮函数调用的自迭代修正框架,但未解决多轮依赖与目标工具定向采样问题。
TTPA (Huang et al., 2025)
在 token 级引入偏好对齐,对单轮工具使用细粒度评估,未涉及多轮逻辑链。
上述方法均为“自底向上”思路,与 FunReason-MT 的“自顶向下、图驱动、反向查询合成”形成对比;实验部分以这些工作为基线,验证了新框架在 BFCL v3/v4 上带来的显著增益。
Q3: 论文如何解决这个问题?
FunReason-MT 把“如何可控地生成高复杂度、多轮、逻辑一致的训练轨迹”拆解为三个互补阶段,分别对准前述三大缺陷,形成一条自顶向下、可验证、可扩展的流水线:
Phase-I:Environment–API Graph Interactions
将工具集 T 与依赖关系 R 建模成有向图 G=(T,R,P),定义合法性函数 I(Ti, Tcalled)=1{Prerequisite(Ti)⊆Tcalled},采用带偏随机游走策略 SampleTool(Ta, Tcalled)=
{
rand(Tlegal), Ta, arg min Tk dist(Tk, Ta), Ta ∈ Tcalled I(Ta, Tcalled)=1
otherwise
}
保证执行正确的同时优先逼近目标复杂工具 Ta,生成可执行轨迹 Turni。
Phase-II:Advanced Tool–Query Synthesis
反向抽象:Tooling Agent 把整条轨迹压缩成单一“高级工具” Tadv=A T(Turni),隐藏中间子工具,强制模型必须逻辑跳跃才能还原调用链。
困难查询生成:Querying Agent 在 Tadv 之上加入噪声 ε 构造 Qhard=A Q(Tadv, ε),使问题表面看似仅需一次“高级”操作,实则需还原多步依赖。
Phase-III:Guided Iterative Chain
Reasoning Agent 首次输出 O(0)={CoT,FC},用验证函数 Validate(FC(k),G)∈{Pass,Fail} 对比真值,若失败,Critiquing Agent 产生细粒度错误反馈 Error(k)=AC(FC(k),G) 并注入下一次 prompt,形成 O(k+1)=AR(..., Prompt(k+1),直至通过或达最大次数,确保 CoT 逻辑与真值严格一致。
Scaling to N-turn Trajectory
将 1–3 步循环 N 次,每次以新的 Ta 为起点,拼接得到高质量多轮轨迹
Traj=⋃i=1N(Turni, Q(i)hard, CoT(i), FC(i))
通过“图驱动定向采样 → 反向抽象造难题 → 迭代反馈保正确”这一闭环,FunReason-MT 显式地工程化了以往只能靠随机“碰运气”才能出现的复杂多轮轨迹,从而突破数据复杂度瓶颈。
Q4: 论文做了哪些实验?
实验围绕两条主线展开:
在领域内 BFCL v3 上验证函数调用准确率的绝对提升;
在分布外 BFCL v4 上验证智能体能力迁移与鲁棒性。所有结果均以 accuracy (%) 报告。
1 训练设置
基座:Qwen3-4B-Instruct-2507(256K 上下文)
数据:自合成 10 k 多轮轨迹 + APIGen 单轮数据增广
训练方式:
SFT:Llama-Factory 全参微调
RL:Verl 框架,采用 Hao et al. (2025a) 的强化学习实现
2 主实验——BFCL v3(领域内)
模型tMulti-Turn ↑tSingle-Turn ↑
Qwen3-4B-Instt15.75t78.19
+FunReason-MT (SFT)t46.90 (+31.15)t81.97 (+3.78)
+FunReason-MT (RL)t56.50 (+40.75)t85.02 (+6.83)
4B 模型经 RL 后 Multi-Turn 绝对值 56.5,超越所有同量级开源模型(xLAM-2-3b-fc-r 57.12→56.5 可比,但参数少一半),并击败多款闭源大模型(GPT-4o 42.5、Claude-Sonnet-4 54.75)。
子维度(Miss Func、Miss Param、Long-Context)全面领先,表明复杂逻辑、长程依赖、参数填充能力同步增强。
3 分布外实验——BFCL v4(OOD)
BFCL v4 评测两项智能体技能:Web Search 与 Memory,任务与训练数据零重叠。
模型tWeb Search ↑tMemory ↑tOverall ↑
Qwen3-4B-Instt5.00t12.69t8.85
+FunReason-MT (SFT)t9.00 (+4.00)t10.97 (−1.72)t9.99 (+1.14)
+FunReason-MT (RL)t16.00 (+11.00)t14.19 (+1.50)t15.10 (+6.25)
RL 版本在 Web Search 绝对提升 11 个百分点,最终 Overall 15.10 超过所有对照专用模型(ToolACE-2-8B 14.83、BitAgent-8B 8.24 等),证明合成范式可向外迁移到未见的智能体场景。
4 结论性度量
单轮+多轮联合增益:SFT 阶段已显著拉近与 8B/70B 模型的差距;RL 阶段进一步把 Multi-Turn 绝对分提升 40.75,验证了数据质量而非规模是瓶颈。
鲁棒性:在完全 OOD 的 BFCL v4 上仍持续改进,说明 FunReason-MT 生成的轨迹对通用工具推理与自主探索具备可迁移的基础知识。
Q5: 有什么可以进一步探索的点?
以下方向可在此基础上继续推进,分为数据范式、模型训练与评测体系三大块,均直接对应 FunReason-MT 尚未充分打开的“黑区”。
数据范式
动态环境演化
当前 API 图 G=(T,R,P) 在单轮采样内静态。可引入时变边权重或环境状态机,让工具依赖随时间/事件改变,迫使模型学会“在线重规划”。
层次化抽象空间
仅合成一个 Tadv 可能限制跳跃粒度。可构建多阶抽象图谱(子工具→复合工具→任务模板),让反向查询在多个语义层跳跃,进一步增加长尾复杂度。
对抗性故障注入
现有迭代链只在 FC(k)≠G 时纠错。可主动在环境中注入随机失败、延迟、部分观测,生成“带噪轨迹”,提升模型对真实世界不确定性的鲁棒性。
跨环境迁移
把 API 图扩展为跨域超图(例如数据库+日历+Web API),研究模型是否能把 FunReason-MT 学到的推理模式零样本迁移到新域,验证抽象能力是否环境无关。
模型训练
链式自改进循环
将 Phase-III 的“外部 Critiquing Agent”改为模型自身承担反思角色,实现 CoT(k)→Self-Critique→CoT(k+1) 的在线自举,逐步减少对真值 G 的依赖,走向自监督数据飞轮。
多轮 RL 奖励塑形
当前 RL 仅在最终 FC 正确与否给稀疏奖励。可引入每轮稠密奖励(工具顺序、参数正确性、逻辑跳跃度),用课程式策略先易后难,加速收敛。
参数高效化
探索 LoRA/ MoE 方式只更新工具相关专家模块,保持通用语言能力不变,实现“小插件”式工具推理增强,便于边缘部署。
评测体系
私有工具漏洞探测
构建含隐藏接口、废弃版本、权限陷阱的灰盒环境,测量模型是否能通过多轮试探自动发现“非文档化”调用路径,评估安全与探索权衡。
可解释性度量
除准确率外,引入 CoT 一致性、最小充分子图、因果影响力指标,量化模型是否真正“理解”依赖而非死记硬背。
长周期记忆与回溯
设计 >100 轮、跨天级别的任务链(如持续项目管理),考察模型在超长上下文中保持工具状态与依赖逻辑的能力,验证 256 K 上下文是否足够。
一句话总结
FunReason-MT 打开了“自顶向下、图驱动、可验证”的多轮工具数据新范式;下一步可沿动态环境→自改进 RL→安全灰盒评测这条闭环继续深挖,把“数据生成-模型训练-可信评测”全部推向在线、自监督、可解释的新阶段。
Q6: 总结一下论文的主要内容
FunReason-MT:面向真实场景的多轮函数调用数据合成框架
问题
现有随机采样或多智能体角色扮演只能产生“低复杂度、Happy-Path”轨迹,导致模型在多轮、逻辑跳跃式工具调用任务上迅速撞天花板。
核心缺陷
目标训练不可控
工具架构隔离,难合成逻辑跳跃查询
多轮逻辑依赖断裂,CoT 易出错
解决思路(自顶向下)
Phase-I 构建 API 依赖图,用带偏采样同时满足“执行合法”与“优先逼近目标复杂工具”,生成可执行轨迹。
Phase-II 反向抽象整条轨迹为单一“高级工具”,再据此合成表面简单、实则隐含多步依赖的困难查询。
Phase-III 引入迭代自纠正链:Reasoning Agent 生成 CoT+FC → Critiquing Agent 对比真值给出错误反馈 → 模型重试,直到通过或达最大次数,保证逻辑一致。
实验结果
BFCL v3:4B 基础模型 Multi-Turn 15.75 → 56.50(+40.75),超越同量级开源与多款闭源大模型。
BFCL v4(OOD):Overall 8.85 → 15.10(+6.25),Web Search 子任务提升 11 个百分点,验证跨任务迁移能力。
贡献
提出“图驱动定向采样 + 反向抽象造难题 + 迭代反馈保正确”的闭环框架,首次在 4B 规模实现 SOTA 级多轮函数调用性能,为后续智能体强化学习提供高质量、可扩展的数据底座。
阅读全文 →