🔥🔥🔥🔥🔥AI大模型

The 2025 Planning Performance of Frontier Large Language Models

#ArtificialIntelligence#LargeLanguageModels#Planning

The 2025 Planning Performance of Frontier Large Language Models
Authors: Augusto B. Corrêa, André G. Pereira, Jendrik Seipp
The capacity of Large Language Models (LLMs) for reasoning remains an active area of research, with the capabilities of frontier models continually advancing. We provide an updated evaluation of the end-to-end planning performance of three frontier LLMs as of 2025, where models are prompted to generate a plan from PDDL domain and task descriptions. We evaluate DeepSeek R1, Gemini 2.5 Pro, GPT-5 and as reference the planner LAMA on a subset of domains from the most recent Learning Track of the International Planning Competition. Our results show that on standard PDDL domains, the performance of GPT-5 in terms of solved tasks is competitive with LAMA. When the PDDL domains and tasks are obfuscated to test for pure reasoning, the performance of all LLMs degrades, though less severely than previously reported for other models. These results show substantial improvements over prior generations of LLMs, reducing the performance gap to planners on a challenging benchmark.
前沿大型语言模型的2025年规划性能
大型语言模型（LLMs）的推理能力仍然是一个活跃的研究领域，前沿模型的能力持续提升。我们对2025年三个前沿LLM在PDDL领域和任务描述下的端到端规划性能进行了更新评估。我们评估了DeepSeek R1、Gemini 2.5 Pro、GPT-5以及参考规划器LAMA，在国际规划竞赛最新学习赛道的子集领域上进行测试。我们的结果显示，在标准PDDL领域中，GPT-5在解决任务方面的表现与LAMA相当。当PDDL领域和任务被混淆以测试纯推理能力时，所有LLM的性能有所下降，但比以前报告的其他模型下降幅度较小。这些结果表明，与之前的LLM相比，性能有了显著提升，在具有挑战性的基准上缩小了与规划器的差距。

智能问答：

Q1: 这篇论文试图解决什么问题？

论文旨在回答一个核心问题：
截至 2025 年，最前沿的大语言模型（LLM）能否在端到端自动化规划任务中达到经典规划器的水平？

具体而言，研究聚焦以下子问题：

在标准 PDDL 描述的经典规划任务上，LLM 的任务覆盖率能否与强基线规划器 LAMA 竞争？
当 PDDL 中的符号名称被混淆（即所有谓词、动作、对象名替换为随机字符串）后，LLM 是否仍具备纯符号推理能力，而非依赖词汇语义？
与专用规划器相比，LLM 在计划长度、计算资源与成本上的 trade-off 如何？

通过上述问题的实证评估，论文希望给出 LLM 在“规划即推理”这一基准上的最新能力画像，并量化其相对经典规划器的优势与局限。

Q2: 有哪些相关研究？

以下研究被论文直接或间接引用，可视为与本工作相关的核心文献，按主题分组并给出关键贡献：

LLM 规划能力基准与批判

Valmeekam et al. (NeurIPS 2023) PlanBench & 批判性调查
提出 PlanBench，首次系统评估 LLM 在 PDDL 任务上的覆盖率，指出模型严重依赖语义线索，混淆后性能崩塌。
Kambhampati et al. (ICML 2024) “LLMs can’t plan” 立场文
主张 LLM 本身不具备可靠规划能力，只能在“LLM-modulo”框架中辅助规划。

混淆/符号鲁棒性测试方法

Chen et al. (ICAPS-WS 2025) 广义 PDDL 混淆方案
提供可复现的随机字符串替换脚本，被本文直接采用以消除词汇语义。
Valmeekam et al. (arXiv 2024) “Strawberry fields” 报告
对 OpenAI o1 系列在混淆任务上的进一步评估，显示性能显著下降，为本研究提供对比基线。

LLM 生成启发式与程序式策略

Corrêa et al. (NeurIPS 2025) Python-landmark 启发式工作
用 LLM 代码生成能力产生可验证的启发式函数，再交由经典搜索求解，展示“LLM-aided”而非“LLM-only”路线。

IPC 竞赛与域描述

Taitler et al. (AI Magazine 2024) IPC 2023 官方总结
提供 Learning Track 的域、生成器参数与难度分布，本文实验任务据此采样。
Helmert (AIJ 2009) 有限域 PDDL 形式化
给出竞赛所用 PDDL 片段的语义规范，是 LLM 提示中“合法动作”定义的依据。

验证与实验工具链

Howey & Long (ICAPS-WS 2003) VAL 验证器
被用来对所有 LLM 输出计划做 soundness 检查，确保覆盖率指标可信。
Seipp et al. (Zenodo 2017) Downward Lab
实验管线与资源限制（30 min/8 GiB）沿用该工具集的默认配置，保证与 LAMA 基线可比。

经典规划器基线

Richter & Westphal (JAIR 2010) LAMA planner
采用其“first-iteration”配置作为强基线，在标准与混淆任务上均提供覆盖率与计划长度上限。

前沿模型技术报告

OpenAI (2025) GPT-5 System Card
Gemini Team (2025) Gemini 2.5 白皮书
DeepSeek-AI (2025) DeepSeek-R1 技术报告
分别给出模型规模、推理机制与 API 默认参数，为实验复现与成本估算提供官方依据。

这些研究共同构成了“LLM 能否真正推理”这一议题的基准、方法论、批判与改进路线，本文在其基础上更新 2025 frontier 模型的端到端表现。

Q3: 论文如何解决这个问题？

论文采用“黑盒端到端提示 + 自动验证 + 双盲对照”的三段式实验框架，系统评估 2025 年三款 frontier LLM 在经典规划任务上的真实能力。具体步骤如下：

任务生成与防污染

以 IPC 2023 Learning Track 的 8 个域为母版，利用官方生成器重新采样 360 个全新实例（参数分布与测试集一致），降低训练语料泄露风险。
对同一实例分别保留“标准”与“混淆”两个版本：后者用 Chen et al. 的脚本将所有符号名替换为随机字符串，彻底剥离语义线索。

提示协议

采用 Corrêa et al. 2025 的固定模板，一次性输入：
– 通用指令（“生成合法动作序列”）
– 完整 PDDL domain + problem 文本
– 常见陷阱检查清单
– 2 个示例（Gripper & Logistics）及其参考计划
禁止外部工具或反馈循环，确保“单轮端到端”设定。

自动验证

所有模型输出均经 VAL 验证器检查动作可应用性与目标满足性，仅统计被 VAL 接纳的计划，保证 soundness。
记录覆盖率（solved tasks）与计划长度（quality），并统计 Gemini 2.5 Pro 的 reasoning token 用量以衡量额外计算开销。

基线对照

在同一硬件（单核 AMD EPYC 7742, 8 GiB, 30 min）运行 LAMA-first，提供经典规划器上限。
对比指标：
– 标准任务覆盖率
– 混淆任务覆盖率（符号鲁棒性）
– 最长有效计划长度
– 估算 GPU 内存与美元成本

结果分析

量化性能差距：GPT-5 在标准任务上与 LAMA 持平（205 vs 204），但混淆后降至 152；Gemini 2.5 Pro 下降最缓（155→146），DeepSeek-R1 最敏感（157→93）。
资源权衡：LLM 可生成 ≥500 步的合法计划，但需 >1000 GiB GPU 内存与百元级 API 费用，而 LAMA 仅需 8 GiB CPU 内存与零成本。

通过上述流程，论文将“LLM 是否真正具备符号规划能力”转化为可验证、可复现、可量化的实验问题，从而给出 2025 frontier 模型的最新能力边界与代价画像。

Q4: 论文做了哪些实验？

实验可概括为“同一批任务 × 两种表征 × 四种求解器”的 2×4 对照设计，所有运行均接受 VAL 刚性验证，仅统计被接纳的计划。具体配置与规模如下：

维度内容
任务来源 IPC 2023 Learning Track 8 个域（Blocksworld, Childsnack, Floortile, Miconic, Rovers, Sokoban, Spanner, Transport）
实例数量每域 45 个，共 360 个全新实例（按官方生成器参数重新采样）
表征版本 ① 标准 PDDL（保留原始符号名）
② 混淆 PDDL（所有谓词、动作、对象名被随机字符串替换）
求解器 ① LAMA-first（经典基线）
② DeepSeek-R1
③ Gemini 2.5 Pro
④ GPT-5
资源上限 LAMA：单核 2.25 GHz / 8 GiB / 30 min
LLM：官方 API 默认参数，单次请求 ≤30 min（DeepSeek-R1 超时即记为失败）
观测指标 1. 覆盖率（solved / 45 每域，总计 360）
2. 计划长度分布（仅已解任务）
3. Gemini 2.5 Pro 推理 token 消耗（标准 vs 混淆）
4. 估算硬件与美元成本

由此得到两组核心结果表：

标准任务覆盖率：GPT-5 205，LAMA 204，Gemini 155，DeepSeek 157
混淆任务覆盖率：GPT-5 152，LAMA 204（不变），Gemini 146，DeepSeek 93

实验同时输出最长 1194 步的合法计划，并记录 Gemini 在混淆任务上推理 token 增加约 2×，量化语义缺失带来的额外计算开销。

Q5: 有什么可以进一步探索的点？

以下方向可在此基础上继续深入，分为“方法改进”“评估深化”“理论剖析”三类，并给出可操作的初步思路：

方法改进

多轮自我修正 vs 单轮端到端
当前实验禁止反馈。可引入 VAL 返回的“首次错误步”作为下一轮提示，测量额外轮次对覆盖率的边际增益，量化“LLM-modulo”框架的潜在上限。

混合符号-神经搜索
将 LLM 生成的动作序列作为“建议”，再嵌入 A* / MCTS 的节点扩展策略：

LLM 提供启发式或候选后继状态
经典搜索保证完备与最优
比较纯 LLM、纯搜索、混合三者在覆盖率与计划质量上的 Pareto 前沿。

域专用微调（Domain-specific continued pre-training）
用自动生成的 PDDL 文本-计划对继续训练模型 1-2 epoch，观察混淆任务是否显著回升，从而分离“语义记忆”与“符号泛化”的贡献。

评估深化

更细粒度的鲁棒性梯度
设计“部分混淆”阶梯：保留 100%、75%、50%、25%、0% 的原始符号，绘制覆盖率-语义比例曲线，测量模型对语义依赖的连续变化。

最优性而不仅是可行性
当前只统计 satisficing 解。可记录每解与 LAMA 最优解的步数比值，得到“平均次优率”，衡量 LLM 是否同时具备良好的计划质量。

跨语言 PDDL 变种
将 domain 文件自动翻译成中文、法语、日语等，再测覆盖率，检验模型是否对“自然语言描述”而非“英语 token”产生依赖。

实时成本-收益曲线
在 API 级别记录每次请求的美元开销与 GPU-秒，绘制“覆盖率 / 100 USD”指标，为实际部署提供直接的经济性参考。

理论剖析

规划复杂性与模型规模缩放律
固定同一域生成器，按多项式-指数难度阶梯采样任务，记录不同参数量（如 8B→70B→671B）模型的覆盖率，拟合 Coverage∼a⋅exp(b⋅param)⋅exp(−c⋅difficulty 形式，检验“规模是否能战胜指数难题”。

推理路径可解释性
利用 Gemini 2.5 Pro 的 reasoning token 输出，构建错误案例的“思维链”与 VAL 错误位置的对比语料，训练小型分类器预测“哪一步即将出错”，反向验证模型内部是否真正跟踪状态。

与 PAC 学习界限的对话
把每个 PDDL 域视为一个概念类，给定动作语法与对象界，推导规划解的样本复杂度上界，再与 LLM 实际所需示例数对比，探讨大模型是否隐式满足某种 PAC-Plan 条件。

上述方向既可直接扩展现有实验 pipeline，也能为“神经-符号”融合提供更丰富的实证与理论支撑。

Q6: 总结一下论文的主要内容

主要内容可浓缩为“一项基准、两项发现、三点提醒”：

一项基准
用 360 道全新 IPC-2023 学习赛道题目（8 域 × 45 题）在“标准 PDDL”与“完全混淆 PDDL”双设定下，对 DeepSeek-R1、Gemini 2.5 Pro、GPT-5 进行单轮端到端提示 + VAL 刚性验证，并以 LAMA-first 为强基线，首次给出 2025 frontier 大模型的规划覆盖率标尺。

两项发现

标准任务：GPT-5 解决 205 题，与 LAMA（204）持平；Gemini 与 DeepSeek 分别达 155/157，显著优于以往报告。
混淆任务：语义被完全剥离后，GPT-5 仍解 152 题，Gemini 小幅降至 146，DeepSeek 骤降至 93；所有 LLM 均出现下滑，但降幅小于旧代模型，显示符号推理能力确有提升。

三点提醒

长计划可靠性：LLM 可一次性生成长达 1194 步的合法动作序列，错误链控制优于预期。
资源代价：DeepSeek-R1 需 ≈1000 GiB GPU 内存，实验花费 100 美元量级，而 LAMA 仅用 8 GiB CPU 内存与零成本，效率差距依旧悬殊。
语义依赖仍在：混淆实验证实模型尚未摆脱对谓词/动作名称的词汇记忆，离“纯符号推理”仍有距离。

综上，论文给出截至 2025 年的量化结论——** frontier LLM 的端到端规划性能已可媲美经典规划器，但高效性与符号鲁棒性仍是开放挑战**。

阅读全文 →

来源：Arxiv2025-11-12 14:45:07 UTC

🌟 今日前沿论文 · 2025-11-12

The 2025 Planning Performance of Frontier Large Language Models