OPT-BENCH:评估LLM代理在大规模搜索空间优化问题中的表现
论文信息
原始标题:OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems
作者:Xiaozhe Li, Jixuan Chen, Xinyu Fang, Shengyuan Ding, Haodong Duan, Qingwen Liu, Kai Chen
机构:Tongji University, Shanghai AI Lab, Nanjing University, Zhejiang University
摘要
大型语言模型(LLMs)在解决多样化任务方面展现出卓越能力,但其通过从先前反馈中学习来迭代优化复杂解决方案的能力尚未得到充分探索。我们提出了OPT-BENCH,这是一个全面的基准测试,用于评估LLM代理在大规模搜索空间优化问题中的表现。
该基准包含20个来自Kaggle的真实世界机器学习任务和10个经典NP问题,为评估LLM代理的迭代推理和解决方案改进能力提供了多样化且具有挑战性的环境。
关键问答
论文提出了OPT-BENCH基准测试和OPT-Agent框架,专门用于评估LLMs在大规模搜索空间优化问题中的迭代优化能力,填补了现有评估方法的空白。
- 历史上下文能显著提升优化性能
- 优化迭代次数与性能提升呈正相关
- 不同模型对温度参数敏感度不同
- 开源模型在NP问题上表现有待提升
- 上下文窗口优化
- 模型架构改进
- 温度参数自适应调整
- 开源模型性能提升
- 多任务学习等方向