JoyAgents-R1:基于强化学习的多样化多LLM智能体联合进化动力学
原文标题:JoyAgents-R1: Joint Evolution Dynamics for Versatile Multi-LLM Agents with Reinforcement Learning
作者:Ai Han, Junxing Hu, Pu Wei, Zhiqian Zhang, Yuhang Guo, Jiawei Lu, Zicheng Zhang
原文摘要:Multi-agent reinforcement learning (MARL) has emerged as a prominent paradigm for increasingly complex tasks. However, joint evolution across heterogeneous agents remains challenging due to cooperative inefficiency and training instability. In this paper, we propose the joint evolution dynamics for MARL called JoyAgents-R1, which first applies Group Relative Policy Optimization (GRPO) to the joint training of heterogeneous multi-agents. By iteratively refining agents' large language models (LLMs) and memories, the method achieves holistic equilibrium with optimal decision-making and memory capabilities. Specifically, JoyAgents-R1 first implements node-wise Monte Carlo sampling on the behavior of each agent across entire reasoning trajectories to enhance GRPO sampling efficiency while maintaining policy diversity. Then, our marginal benefit-driven selection strategy identifies top-K sampling groups with maximal reward fluctuations, enabling targeted agent model updates that improve training stability and maximize joint benefits through cost-effective parameter adjustments. Meanwhile, JoyAgents-R1 introduces an adaptive memory evolution mechanism that repurposes GRPO rewards as cost-free supervisory signals to eliminate repetitive reasoning and accelerate convergence. Experiments across general and domain-specific scenarios demonstrate that JoyAgents-R1 achieves performance comparable to that of larger LLMs while built on smaller open-source models.
中文翻译:多智能体强化学习(MARL)已成为解决日益复杂任务的重要范式。然而,由于合作效率低下和训练不稳定,异构智能体间的联合进化仍然具有挑战性。本文提出了一种用于MARL的联合进化动力学方法JoyAgents-R1,首次将组相对策略优化(GRPO)应用于异构多智能体的联合训练。该方法通过迭代优化智能体的大型语言模型(LLMs)和记忆,实现了具有最优决策制定和记忆能力的整体平衡。具体地,JoyAgents-R1首先在每个智能体的整个推理轨迹上实施节点级蒙特卡洛采样,以增强GRPO采样效率的同时保持策略多样性。然后,我们的边际效益驱动选择策略识别具有最大奖励波动的前K个采样组,通过成本效益的参数调整实现有针对性的智能体模型更新,提高训练稳定性并最大化联合收益。同时,JoyAgents-R1引入了一种自适应记忆进化机制,将GRPO奖励重新用作无成本的监督信号,以消除重复推理并加速收敛。在通用和特定领域场景的实验表明,JoyAgents-R1在基于较小的开源模型构建时,能够实现与更大LLMs相当的性能。
智能问答:
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)中异构智能体联合进化(joint evolution)的挑战。具体来说,问题主要集中在以下几个方面:合作效率问题:在多智能体系统中,一个智能体的行为可能会影响其他智能体的奖励,这可能导致环境不稳定,进而降低系统的整体效率和性能。训练稳定性问题:现有的多智能体强化学习方法,如多智能体近端策略优化(MAPPO)等,由于依赖于额外的价值函数,并且在策略和价值更新上存在解耦,这在协调具有不同奖励结构的异构智能体时,会导致训练过程不稳定。联合进化问题:在多智能体系统中,由于智能体的动态推理路径和多样化的架构,使得异构智能体的联合训练和收敛变得困难,特别是在需要协调多个智能体以实现共同目标的场景中。
Q: 有哪些相关研究?
A: 论文中提到了以下相关研究:LLM-based multi-agent planning:近期LLMs的发展彻底改变了代理规划的格局,使自主代理能够实施迭代自我反思机制,动态整合外部信息,并通过复杂的推理和决策过程感知环境以规划任务。相比于单个代理在效率和环境适应性方面面临的挑战,多代理系统通过分散式决策和协作机制展现出强大的性能,能够在机器人、工具调用和AI助手等领域协调具有不同能力和目标的代理以追求共享目标。然而,很少有多代理系统能够实现跨领域的任务,且开源的LLMs在性能上显著落后于最先进的模型,这些模型要么是闭源的且机制不透明,要么过于复杂而不适合多代理部署。Multi-agent reinforcement learning:多代理强化学习(MARL)取得了显著进展,成为解决复杂和具有挑战性任务的理想方法。该研究关注合作型MARL任务,其中各种代理共享一个共同目标,这已在游戏、任务分配、技能发现和电路设计等领域成功应用。典型的MARL方法采用演员-评论家框架,其中演员根据观察生成动作,评论家评估其长期效果。尽管近期研究探索了基于LLM的MARL框架以解决问题和体现智能,但这些方法主要关注增强代理间的通信和合作决策,对多代理系统的联合进化关注有限。此外,许多方法采用跨代理的参数共享,这限制了它们在同质场景中的适用性,无法解决异构系统的问题。
Q: 论文如何解决这个问题?
A: 为了解决多智能体强化学习(MARL)中异构智能体联合进化的挑战,论文提出了一个名为 JoyAgents-R1 的新框架。该框架通过以下几种创新方法来解决上述问题:1. 联合进化动态(Joint Evolution Dynamics)节点级蒙特卡洛采样(Node-wise Monte Carlo Sampling):在多智能体系统中,直接应用GRPO会导致采样路径呈指数级增长,这使得采样效率低下。为了提高采样效率,JoyAgents-R1采用了节点级蒙特卡洛采样方法。具体来说,对于每个智能体的行为,该方法在推理链的每个节点上进行采样,而不是在整个推理链上进行全组合采样。这将采样路径的数量从指数级减少到线性级,显著提高了采样效率。2. 边际效益驱动的选择策略(Marginal Benefit-Driven Selection Strategy):为了提高训练稳定性和效率,JoyAgents-R1采用了边际效益驱动的选择策略。该策略通过选择具有最大奖励波动的前K个采样组来更新相应的智能体模型,从而在最小化计算成本的同时最大化联合效益。3. 自适应记忆进化机制(Adaptive Memory Evolution Mechanism):为了进一步提高多智能体系统的训练效率和推理性能,JoyAgents-R1引入了一种自适应记忆进化机制。该机制利用GRPO奖励作为"免费"的监督信号,通过动态更新智能体的记忆模块来消除重复推理,加速收敛。
Q: 论文做了哪些实验?
A: 论文中进行了以下实验来验证所提出方法的有效性:实施细节:模型选择:选择Qwen2.5-3B作为每个代理的骨干模型,以确保技术可重复性。训练阶段:实验包括两个主要阶段。第一阶段,基础模型通过监督微调(SFT)进行训练,学习率为5e-6,训练5个周期。第二阶段,多代理系统通过强化学习进行训练,学习率为1e-6,训练5个周期。采样和更新:每个代理从初始轨迹中采样Gi = 5个动作,温度为1.2。然后,选择排名前5的节点进行模型更新。强化学习的迭代RL与GRPO执行2次迭代。训练资源:模型在8个NVIDIA H200 GPU上进行训练,并报告最佳结果。数据集和设置:监督微调数据集:为每个代理构建了专门的数据集,输入整合了用户查询、检索记忆、可选工具、历史对话和工具生成的响应等元素。目标包括推理过程、工具调用或最终答案。主代理:使用13,000个样本进行训练,包括10,000个单独子代理调用(每个子代理2,500个)和3,000个协作代理调用。问答代理:使用1,000个实例进行训练,包括700个真实世界的电商数据条目和300个开放域案例。功能调用代理:电商代理包含12个流行的电商平台API,有2,000个训练案例;通用代理使用1,000个多样化的API调用,产生3,500个训练实例。数学代理:使用GSM8K构建数据集。
Q: 有什么可以进一步探索的点?
A: 论文中提出的JoyAgents-R1框架在多智能体联合进化方面取得了显著成果,但仍有一些可以进一步探索的方向:1. 扩大模型规模和性能:模型规模:当前方法主要基于较小的开源模型(如Qwen2.5-3B)。未来可以探索如何将该框架应用于更大规模的模型,以进一步提升性能和泛化能力。性能提升:虽然JoyAgents-R1在特定领域任务中表现出色,但在一些任务(如数学问题)上仍落后于更大规模的模型。可以研究如何通过更精细的训练策略和优化方法来缩小这一差距。2. 跨领域泛化能力:多领域任务:当前实验主要集中在特定领域(如电商和通用功能调用)。未来可以扩展到更多领域(如医疗、金融等),验证该框架在不同领域的适应性和泛化能力。领域适应性:研究如何通过领域适应技术(如领域对抗训练、迁移学习等)进一步提升模型在新领域的表现,减少对大规模标注数据的依赖。3. 计算效率和资源优化:训练效率:尽管JoyAgents-R1在采样效率和训练稳定性方面取得了进展,但训练多智能体系统仍然需要较高的计算资源。可以探索更高效的采样策略和分布式训练方法,以进一步降低计算成本。资源优化:研究如何优化模型的内存使用和计算资源分配,特别是在资源受限的环境中(如移动设备或边缘计算场景)。
Q: 总结一下论文的主要内容
A: 本文提出了 JoyAgents-R1,这是一个基于强化学习的多智能体联合进化框架,旨在解决异构智能体在多智能体强化学习(MARL)中的联合进化问题。该框架通过引入组相对策略优化(GRPO)来提高多智能体系统的训练效率和性能,同时通过自适应记忆进化机制进一步优化智能体的推理能力。研究背景:多智能体强化学习(MARL):MARL作为一种解决复杂任务的范式,面临着异构智能体联合进化中的合作效率低下和训练不稳定的问题。大型语言模型(LLM):LLM的发展为智能体系统带来了革命性的变化,但现有的多智能体系统在跨领域任务和资源受限环境中表现不佳。研究方法:JoyAgents-R1框架:提出了一个层次化的多智能体架构,包括主智能体和多个子智能体,以实现复杂协作任务。节点级蒙特卡洛采样:通过在推理链的每个节点上进行采样,而不是全组合采样,显著提高了采样效率。边际效益驱动的选择策略:通过选择具有最大奖励波动的前K个采样组来更新智能体模型,提高了训练稳定性和效率。自适应记忆进化机制:利用GRPO奖励作为监督信号,动态更新智能体的记忆模块,加速训练收敛并提高推理性能。关键结论:性能提升:JoyAgents-R1在基于较小开源模型的情况下,能够实现与较大LLMs相当的性能,特别是在特定领域任务中。训练效率:通过节点级蒙特卡洛采样和边际效益驱动的选择策略,显著提高了多智能体系统的训练效率和稳定性。记忆优化:自适应记忆进化机制通过利用GRPO奖励作为监督信号,有效减少了重复推理,加速了训练收敛。
阅读全文 →