微软提出rStar-Math,自我进化深度思考,数学能力直逼o1
来源: | 作者:DE.Tech | 发布时间: 2025-01-17 | 53 次浏览 | 分享到:

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking



    微软最新提出了媲美o1数学推理能力的小模型:rStar-Math,通过自我进化的深度思考来更好地掌握数学推理。


文章介绍了一个名为rStar-Math的方法,它通过蒙特卡洛树搜索(MCTS)和自我演化训练,显著提升了小型语言模型(SLMs)在数学推理方面的能力,使其能够与OpenAI的大型模型o1相媲美甚至超越。rStar-Math通过三个创新点来解决训练两个SLMs的挑战:一种新颖的代码增强链式思考(CoT)数据合成方法、一种新的过程奖励模型训练方法,以及一种自我演化配方,通过迭代演化提升推理能力。

背景知识

  • 数学推理挑战:大型语言模型(LLMs)在解决数学问题上表现出色,但传统的单次推理方法(类似系统1思考)常导致快速但错误的结果。系统2风格的思考,即模仿人类推理的更慢、更深入的思考过程,被认为能提高准确性。

  • 测试时计算扩展:这种方法建议在测试时扩展计算,通过生成多个数学推理步骤并由另一个LLM评估,选择最有可能正确的步骤。

研究方法

  • rStar-Math框架通过MCTS实现“深度思考”,其中数学策略SLM在测试时进行搜索,由基于SLM的过程奖励模型引导。

  • 代码增强CoT数据合成通过广泛的MCTS rollout生成逐步验证的推理轨迹,用于训练策略SLM。

  • 过程奖励模型训练避免直接使用Q值作为奖励标签,而是构建基于Q值的偏好对,使用成对排名损失优化PPM的分数预测。

  • 自我演化配方从头开始构建策略SLM和PPM,并通过迭代演化提升推理能力。

实验

  • 数据集:收集了747k个数学文字问题,包括竞赛和奥林匹克级别的问题。

  • 模型训练使用上述数据集和方法训练策略SLM和PPM,通过多轮自我演化提升模型性能。

  • 性能评估:在多个数学基准测试上评估rStar-Math的性能,包括MATH、AIME 2024、AMC 2023等。

关键结论

  • 性能提升rStar-Math显著提升了SLMs的数学推理能力,在MATH基准测试上,Qwen2.5-Math-7B从58.8%提升到90.0%,Phi3-mini-3.8B从41.4%提升到86.4%,超越了o1-preview。

  • 奥林匹克竞赛表现:在AIME 2024上,rStar-Math平均解决了53.3%的问题,排名进入前20%的最亮高中数学学生之列。

  • 自我反思能力:rStar-Math展现了内在的自我反思能力,能够在推理过程中识别并纠正错误。

  • PPM的有效性PPM能够识别关键的定理应用中间步骤,引导策略模型生成正确解决方案。

现象和观点

  • 小型模型的潜力:rStar-Math证明了小型语言模型通过自我演化和深度思考能够达到与大型模型相媲美的数学推理水平。

  • 数据合成的重要性:通过自我生成的高质量训练数据,rStar-Math避免了依赖大型模型的数据蒸馏,展示了小型模型自我提升的潜力。

  • 推理过程的优化PPM在识别关键推理步骤方面发挥了重要作用,这表明了对推理过程进行精细建模的重要性。

未来工作

  • 更广泛的数学任务:rStar-Math有望推广到更广泛的数学任务,如定理证明。

  • 跨领域应用rStar-Math的方法可以推广到其他领域,如代码和常识推理,但需要提供反馈机制来验证MCTS rollout结束时的输出。


【原文】

Xinyu GuanLi Lyna ZhangYifei LiuNing ShangYouran SunYi ZhuFan YangMao Yang

    我们提出了rStar-Math,以证明小型语言模型(SLMs)无需从更高级的模型中进行蒸馏,即可匹敌甚至超越OpenAI o1的数学推理能力。rStar-Math通过蒙特卡洛树搜索(MCTS)实现“深度思考”,其中数学策略SLM在基于SLM的过程奖励模型的指导下进行测试时搜索。rStar-Math引入了三项创新来应对训练这两个SLM的挑战:(1)一种新颖的代码增强的CoT数据合成方法,通过广泛的MCTS模拟生成逐步验证的推理轨迹,用于训练策略SLM;(2)一种新颖的过程奖励模型训练方法,避免了简单的步骤级评分标注,从而产生更有效的过程偏好模型(PPM);(3)一种自我进化方案,其中策略SLM和PPM从零开始构建,并通过迭代进化来提高推理能力。通过对747k个数学问题的数百万合成解决方案进行4轮自我进化,rStar-Math将SLM的数学推理能力提升到了最先进的水平。在MATH基准测试中,它将Qwen2.5-Math-7B从58.8%提升到90.0%,将Phi3-mini-3.8B从41.4%提升到86.4%,分别比o1-preview高出+4.5%和+0.9%。在美国数学奥林匹克(AIME)中,rStar-Math平均解决了53.3%(8/15)的问题,跻身于最优秀的高中数学学生的前20%。代码和数据将在此https URL提供。

We present rStar-Math to demonstrate that small language models (SLMs) can rival or even surpass the math reasoning capability of OpenAI o1, without distillation from superior models. rStar-Math achieves this by exercising "deep thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM performs test-time search guided by an SLM-based process reward model. rStar-Math introduces three innovations to tackle the challenges in training the two SLMs: (1) a novel code-augmented CoT data sythesis method, which performs extensive MCTS rollouts to generate step-by-step verified reasoning trajectories used to train the policy SLM; (2) a novel process reward model training method that avoids naïve step-level score annotation, yielding a more effective process preference model (PPM); (3) a self-evolution recipe in which the policy SLM and PPM are built from scratch and iteratively evolved to improve reasoning capabilities. Through 4 rounds of self-evolution with millions of synthesized solutions for 747k math problems, rStar-Math boosts SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to 86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad (AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among the top 20% the brightest high school math students. Code and data will be available at this https URL.



Subjects:

Computation and Language (cs.CL)

Cite as:

arXiv:2501.04519 [cs.CL]


(or arXiv:2501.04519v1 [cs.CL] for this version)


https://doi.org/10.48550/arXiv.2501.04519




ccc


注:数据公开渠道收集发布,版权出版方所有,此处不构成任何投资建议
返回