🔥🔥🔥🔥🔥AI+信息检索

查询分解的 RAG：平衡探索与利用

#RAG系统#多臂赌博机#查询分解#文档检索#信息增益

论文原始标题：Query Decomposition for RAG: Balancing Exploration-Exploitation

论文作者：Roxana Petcu, Kenton Murray, Daniel Khashabi, Evangelos Kanoulas, Maarten de Rijke, Dawn Lawrie, Kevin Duh

原始摘要：Retrieval-augmented generation (RAG) systems address complex user requests by decomposing them into subqueries, retrieving potentially relevant documents for each, and then aggregating them to generate an answer. Efficiently selecting informative documents requires balancing a key trade-off: (i) retrieving broadly enough to capture all the relevant material, and (ii) limiting retrieval to avoid excessive noise and computational cost. We formulate query decomposition and document retrieval in an exploitation-exploration setting, where retrieving one document at a time builds a belief about the utility of a given sub-query and informs the decision to continue exploiting or exploring an alternative. We experiment with a variety of bandit learning methods and demonstrate their effectiveness in dynamically selecting the most informative sub-queries. Our main finding is that estimating document relevance using rank information and human judgments yields a 35% gain in document-level precision, 15% increase in {alpha}-nDCG, and better performance on the downstream task of long-form generation.

翻译标题：查询分解的 RAG：平衡探索与利用

翻译摘要：检索增强生成（RAG）系统通过将复杂用户请求分解为子查询、为每个子查询检索潜在相关的文档，并整合它们以生成答案来解决复杂用户请求。高效选择信息文档需要平衡一个关键权衡：(i) 检索足够广泛以捕捉所有相关信息，(ii) 限制检索以避免过多噪声和计算成本。我们将查询分解和文档检索建模为探索-利用场景，其中一次检索一个文档会建立对给定子查询效用的信念，并指导决定是继续利用还是探索其他替代方案。我们实验了多种多臂赌博机（bandit）学习方法，并证明了它们在动态选择最有信息量的子查询上的有效性。我们的主要发现是，使用排名信息和人工判断来估计文档相关性可以提高文档级精度 35%，{alpha}-nDCG 提高 15%，并在长文本生成的下游任务中表现更好。

智能问答：

Q1: 这篇论文试图解决什么问题？

该论文针对“检索增强生成（RAG）系统在处理复杂用户请求时，如何高效决定为哪些子查询、以及为每个子查询检索多少文档”这一核心问题，提出将查询分解与文档选择建模为多臂赌博机（multi-armed bandit）框架下的探索-利用权衡问题。具体而言，论文试图解决以下关键痛点：

固定深度检索的盲目性
现有方法通常为每个子查询一次性检索固定数量的文档，无法根据子查询的实际效用动态调整，导致：

检索过宽：引入大量噪声文档，超出 LLM 上下文窗口或稀释生成信号；
检索过窄：遗漏关键证据，降低召回。

缺乏 principled 的预算分配机制
在总检索预算受限的场景下，系统需要在线决定：

继续利用（exploitation）当前子查询的后续文档；
还是探索（exploration）其他可能更富信息量的子查询。

层级分解场景下的相关性传递
当复杂请求被层级式地逐层细分为子-子查询时，父查询的观测证据如何有效传递给子查询，避免冷启动浪费预算。

为此，论文提出：

把每个子查询视为 bandit 的一条“臂”，每次观测一篇文档的相关性作为奖励，用后验信念更新臂的期望效用；
在离散空间用 Beta-Bernoulli、在连续空间用 Gaussian 建模奖励；
引入 rank 信息、多样性惩罚与 UCB 探索项，设计复合奖励函数；
对层级分解结构提出“相关赌博机”机制，子臂继承父臂的后验参数，实现信息复用。

通过上述方法，在固定预算下动态决定“下一篇文档应从哪个子查询的排序列表中取出”，以最大化整体相关度，并提升下游长文本生成的质量。

Q2: 有哪些相关研究？

论文在第 2 节“Related Work”中将与自身最密切的研究划分为三大主线，并指出各自与本文的异同。可归纳为以下文献群组（按主题而非原文章出现顺序整理）：

1. RAG 与迭代式检索

RAG 基础框架

Lewis et al. 2021：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Asai et al. 2020：Learning to Retrieve Reasoning Paths over Wikipedia Graph for QA

多步 / 反馈式检索

Gu et al. 2025：Generation-Augmented Retrieval & Hierarchical Chain-of-Thought for Clinical Assessment
Deng et al. 2022：RLPrompt，用强化学习迭代改写查询直到获得满意证据
Jin et al. 2025：Search-R1，用 RL 训练 LLM 主动调用搜索引擎并推理

计算受限下的高效重排/选择

Podolak et al. 2025：Zero-shot LLM Reranking with Setwise Insertion
Petcu & Maji 2024：基于语义相似度图的训练数据预算分配

关系：上述工作同样关注“在预算或上下文受限时如何选证据”，但多聚焦于查询改写、重排或训练数据筛选，而未把“子查询分解”本身视作序列决策问题，也未显式建模探索-利用权衡。

2. 查询分解与复杂信息需求

显式分解复杂查询

Khot et al. 2023：Decomposed Prompting，将复杂任务拆成可验证子问题
Yao et al. 2023：ReAct，交替“推理→行动（检索）→再推理”

针对 discourse 现象的分解

Zhang et al. 2025：Excluir，处理“排除”式信息需求
Weller et al. 2024；Petcu et al. 2025：Negation in Neural IR
Qi et al. 2019：Answering Complex Open-domain Questions via Iterative Query Generation

关系：这些研究证明了“分解”对覆盖多证据的必要性，但普遍采用‘为每个子查询固定检索 k 篇文档’的策略；本文则进一步提出动态预算分配与bandit 式在线停止。

3. Bandit / Active Learning 在 IR 中的应用

测试集构建与评价采样

Li & Kanoulas 2017：Active Sampling for Large-Scale IR Evaluation
Rahman et al. 2020：Efficient Test Collection Construction via Active Learning
Voorhees 2018：Building Fair & Reusable Test Collections using Bandit Techniques

关系：同样用多臂赌博机减少标注量，但目标是为“系统评测”而非“下游生成”选文档，且臂对应的是“待评判文档”而非“子查询”。本文首次把子查询视为臂，并引入层级相关 bandit 以服务于 RAG 的生成质量。

小结

本文处于“查询分解 + 高效检索 + 探索/利用”三者的交汇点：

与 RAG 研究相比，引入序列决策视角；
与查询分解研究相比，引入预算感知的动态停止；
与 bandit-based IR 评估相比，臂的语义从“单篇文档”升级为“子查询”，并拓展到父子相关后验的层级场景。

Q3: 论文如何解决这个问题？

论文将“复杂查询分解后如何为各子查询分配有限检索预算”形式化为多臂赌博机（MAB）的序列决策问题，通过在线探索-利用机制动态决定每一步应从哪个子查询的排序列表中取出下一篇文档。具体解决方案分为三大模块：

1. 形式化：子查询 ↔ 臂，文档 ↔ 奖励

每个子查询 $ q_i $ 视为一条臂；
每轮从臂 $ a_t $ 对应的排序列表中取出尚未观测过的最高位文档 $ d_{a_t,n} $；
以该文档的相关性（人工或 LLM 判断）计算即时奖励 $ r_t $，并更新臂 $ a_t $ 的后验信念；
目标：在总预算 $ b $ 步内最大化累计奖励，即整体相关文档数。

2. 奖励设计与后验更新

针对离散/连续两种场景给出两种 Thompson Sampling 算法：

Algorithm 1（离散空间）
奖励建模为伯努利变量；
采用 Beta 共轭先验： $ theta_i sim text{Beta}(alpha_i, beta_i) $，观测到相关/不相关后在行 11 更新： $ alpha_{a_t} leftarrow alpha_{a_t} + r_t, beta_{a_t} leftarrow beta_{a_t} + (1 - r_t) $

Algorithm 2（连续空间）
奖励为检索分数（PLAID-X、RFF 等），建模为高斯变量；
采用 Gaussian-Gaussian 共轭，在每轮更新后验均值与方差（行 10–12）。

3. 复合奖励函数（公式 1）

为同时利用排序信号、多样性、探索需求，提出 Bernoulli top-k UCB diversity-aware 奖励：

$ r(a_t,n) = frac{1}{k} sum_{i=n}^{n+k-1} text{Relevance}(d_{a_t,i}) cdot left(1 - frac{max_{(i,j)in O} cos(d_{a_t,n}, d_{i,j}) + 1}{2} right) + c log_2(n+1) $

局部 top-k 平均
⋅ 多样性惩罚
+ UCB 探索项

局部窗口缓解单点噪声；
余弦相似度惩罚重复内容；
UCB 项保证每个子查询至少被探索一次。

4. 层级分解：相关赌博机（Correlated MAB）

当子查询可继续细分时：

父查询 $ q_i $ 的后验 $ text{Beta}(alpha_i, beta_i) $ 达到信息度阈值 $ frac{alpha_i}{alpha_i + beta_i} > tau $ 且被观测 $ n geq 4 $ 次时，才展开其子查询；
子查询臂以继承因子 $ lambda = 0.91 $ 初始化： $ text{Beta}(lambdaalpha_i, lambdabeta_i) $，从而把父节点的证据软传递给子节点，减少冷启动浪费。

5. 决策流程（对应图 1）

LLM 一次性分解原始请求 → 获得子查询集合 $ {q_1, ldots, q_K} $；
对每个 $ q_i $ 预检索 $ N $ 篇文档，形成有序列表；
Bandit 循环（预算未耗尽）：
a. 按 Thompson Sampling 采样各臂的期望效用 $ theta_i $；
b. 选最大 $ theta_i $ 的臂 $ a_t $，取出其列表中最靠前且未评估的文档；
c. 计算复合奖励并更新该臂后验；
最终把选中的文档集合输入 LLM，生成 grounded 答案。

6. 效果验证

NeuCLIR & ResearchyQuestions 上，20%–30% 预算即可达到与 100% 预算相近的精度；
相比“固定深度”基线，文档级 precision ↑35%，α-nDCG ↑15%；
下游报告生成在引用支持、信息块覆盖、句级证据三指标上平均提升 6.7%–9.9%；
层级 bandit 在 10% 预算下，比扁平序列策略再提升 20%–32%。

通过上述“子查询即臂、每篇文档即一次带噪观测、后验驱动下一跳选择”的框架，论文实现了在有限上下文与计算预算内自适应、可解释、可扩展的证据采集。

Q4: 论文做了哪些实验？

论文围绕三条研究问题（RQ1–RQ3）在 NeuCLIR 2024 与 ResearchyQuestions 两个数据集上共设计了 4 组核心实验，外加多项辅助分析。所有实验均重复 1 000 随机种子取平均，预算以“可检索文档总量”百分比表示（10 %–100 %）。主要实验一览如下：

1. RQ1：能否把“子查询选文档”建模成多臂 bandit？

数据集：NeuCLIR（16 个子查询 × 10 篇文档 = 160/请求）
ResearchyQuestions（两级分解，平均 ≈ 90/请求）
对比策略：

纯利用（一直挖第一条子查询）
纯探索（轮询各子查询）
随机 / 随机+排序 / ε-greedy / Bernoulli / UCB / top-k / diversity / 复合奖励(公式 1) 等 12 种 reward 政策（表 1）

观测指标：

宏观 Precision@b（图 4、8、9）
Recall@b（图 10、11）
α-nDCG@5/10/20/40/50（表 3、5）

关键结论：

20 % 预算下，Bernoulli-top-k-UCB-Diversity precision 最高（NeuCLIR 0.57→0.62，+9 %；RQ 0.14→0.22，+57 %）；
α-nDCG 上，ε-greedy、UCB 与 top-k Bernoulli 显著优于基线，最大提升 0.055（≈15 %）；
预算 ≥ 60 % 后所有策略收敛，验证 bandit 主要在小预算场景有效。

2. RQ2：Bandit 选出的文档对下游长文生成是否有帮助？

数据集：NeuCLIR 人工标注 nugget 分区（24 个请求）
生成设置：使用同一 LLM，仅输入不同策略在 b=20 %/30 % 下选出的文档，生成报告。
评估框架：Auto-ARGUE（行级引用检查）
指标：

Citation Support（声明-引用对齐）
Nugget Coverage（关键信息单元覆盖率）
Sentence Support（有证据支撑的句子比例）

结果（表 2）：

相比“全文档”基线，bandit 策略在 20 % 预算即可提升
– Citation Support +6.0 %–9.9 %
– Nugget Coverage +6.7 %–8.5 %
– Sentence Support +7.3 %–9.6 %
Bernoulli-top-k=4 在 20 % 预算下三项同时最优；30 % 预算时仍保持显著优势。

3. RQ3：Bandit 能否指导“层级”子查询分解？

数据集：ResearchyQuestions（自带两级标题-子查询结构）
方法：

扁平序列（Serial）：把所有子查询视为同级臂；
层级相关（Hierarchical）：父查询后验达标后才展开子查询，子臂继承 Beta(λα,λβ)，λ=0.91，τ=0.77，最少观测 4 次。

指标：Precision@10 %/@20 %（表 4）

结果：

10 % 预算下，层级方式相对扁平提升
– Bernoulli +21.6 %
– top-k=5 +32.3 %
– RL-top-k-UCB-Diversity +20.4 %
20 % 预算时提升幅度收窄，表明层级 bandit 主要在极稀缺预算场景起效。

4. 辅助与消融实验

4.1 奖励函数消融（表 1 全部列）
去除多样性项 → 精度下降 2–4 %；
去除 UCB → 低预算召回下降显著；
Gaussian 奖励因排序信号噪声大，全面落后 Bernoulli（表 5）。

4.2 超参数贝叶斯搜索（图 12）
对层级策略的三元组 (n, τ, λ) 运行 50 轮贝叶斯优化，确认最优组合 n=4, τ=0.77, λ=0.91。

4.3 排序信号可靠性检验（图 5）
在 NeuCLIR 24 个主题上拟合 MRR-相关性回归，仅 8 % 主题呈显著负斜率，说明排序并非绝对可靠，解释为何局部 top-k 平均比单点奖励更稳健。

实验规模汇总
NeuCLIR：24 主题 × 10 分解副本 × 1 000 随机种子 = 240 000 次 bandit 运行
ResearchyQuestions：140 实例 × 同上 = 1 400 000 次运行
下游生成：2 预算 × 12 策略 × 24 主题 × 3 指标 = 1 728 份自动评估报告

以上实验系统验证了：

Bandit 框架显著优于固定深度基线；
收益在 20 %–30 % 预算区间最显著；
层级相关先验可进一步放大低预算优势；
排序+多样性+UCB 的复合奖励最稳健。

Q5: 有什么可以进一步探索的点？

以下方向可在此基础上继续推进，分为理论/算法、模型/系统与评测/应用三大层面：

1. 理论/算法层面

上下文相关 Bandit
当前子查询间仅通过扁平或父子继承耦合，可引入Graphical Bandit或Linear Contextual Bandit，把子查询的语义表示作为上下文，实现隐式相似度驱动的信息共享。

非稳态奖励流
检索排序列表的边际收益随深度递减，可建模为Restless Bandit或** rotting bandit**，让后验自动适应漂移的文档质量。

多目标 Bandit
同时优化相关性、多样性、长度、推理路径复杂度的 Pareto 前沿，采用Multi-objective Thompson Sampling或Constrained Bandit。

Correlated Prior 的自学习
继承因子 λ 与阈值 τ 目前靠网格/贝叶斯搜索，可让元 Bandit在线调整，或利用Hierarchical Bayesian Meta-Learning从任务分布中先验学习。

2. 模型/系统层面

端到端训练检索-选择-生成
把“选到第几篇文档”作为可微或 RL-based policy，联合训练检索器、bandit 控制器与生成模型，实现面向最终答案奖励的反向传播（类似 Search-R1 思路）。

动态分解而非一次性分解
当前子查询在首轮即固定，可引入迭代扩展树搜索（如 Monte-Carlo Tree Search），让 bandit 的“臂”在运行中动态生长/剪枝，形成Adaptive Query Expansion Tree。

多模态与跨语言
NeuCLIR 已提供多语料，未来可把 bandit 奖励扩展为视觉-文本一致性得分，或在跨语场景下用共享语义空间作为臂间相关先验。

计算感知的奖励
把推理延迟、token 费用、GPU 内存量化成成本项，构建Cost-aware Bandit，在信息增益与算力消耗之间做在线权衡。

3. 评测/应用层面

更细粒度的相关性标签
目前使用二元或连续分数，可引入段落级、命题级（nugget-level）标签，让 bandit 奖励信号更精准。

人类-模型协同评估
让 bandit 在人机混合标注场景下工作：人类标注成本高→bandit 优先选择对评估方差降低最大的文档，实现Active Evaluation。

长尾/垂直领域测试
在医疗、法律等高风险领域验证层级先验是否仍有效，或需领域专用的继承函数 λ(·)。

在线 A/B 与反事实日志研究
将策略部署到真实搜索引擎，用反事实 off-policy evaluation比较不同 bandit 在真实用户查询上的满意度、点击率和停留时间。

4. 可扩展性 & 鲁棒性

对抗噪声标签
当 LLM-as-a-Judge 给出错误相关性时，可引入Robust Bandit（如β-Contamination 模型）或Human-in-the-loop Correction。

私有与联邦场景
在联邦检索环境下，各节点只能看到本地文档，可用Federated Bandit协同更新全局后验，同时保护用户查询隐私。

一句话总结

未来工作可从“上下文感知、非稳态、多目标、端到端训练、动态分解、成本感知、细粒度标签、联邦与在线评测”八个维度展开，把 bandit 驱动的查询分解从实验室原型推向可训练、可解释、可落地的下一代 RAG 系统。

Q6: 总结一下论文的主要内容

论文核心贡献与内容可概括为“一个框架、两组算法、三大验证、四项提升”：

1. 一个框架

提出 Query-Decomposition-as-Bandit（QD-Bandit）视角：

将复杂查询拆成的子查询视为多臂赌博机臂
每步从某臂的排序列表取下一篇文档作为一次“拉臂”
以相关性+多样性+UCB 探索为复合奖励，更新臂的后验信念
在总预算 b 步内动态决定“继续挖当前臂”还是“换臂探索”，实现召回与噪声的在线权衡

2. 两组算法

场景t后验模型t关键公式/流程
离散tBeta-Bernoullit$ theta_i sim text{Beta}(alpha_i, beta_i) $，观测后 $ alpha leftarrow alpha + r, beta leftarrow beta + (1 - r) $
连续tGaussian-Gaussiant更新 $ mu, sigma^2 $ 共轭后验（Algorithm 2 行 10–12）
层级t相关先验t子臂继承 $ text{Beta}(lambdaalpha, lambdabeta) $，仅当父臂信息度 $ > tau $ 且已观测 $ n geq 4 $ 次才展开

复合奖励（公式 1）

$ r(a_t,n) = frac{1}{k} sum_{i=n}^{n+k-1} text{Rel}(d_i) cdot (1 - frac{max_{(i,j) in O} cos(d_{a_t,n}, d_{i,j}) + 1}{2} + c log_2(n+1) $

局部 top-k 平均
⋅ 多样性惩罚
+ UCB 探索项

3. 三大验证

研究问题t数据集t关键结果
RQ1 文档选择能否用 bandit？tNeuCLIR + ResearchyQuestionst20% 预算下 precision 提升 9–57%；α-nDCG 提升 ≈15%；优于纯利用/纯探索/随机基线
RQ2 对下游长文生成是否有效？tNeuCLIR 报告生成tcitation support +6–10%，nugget coverage +6.7–8.5%，sentence support +7.3–9.6%
RQ3 能否指导层级分解？tResearchyQuestionst10% 预算下层级 bandit 再提升 20–32%；预算充足时收益收敛

4. 四项提升

文档级精度 ↑35%（bandit vs 固定深度）
α-nDCG ↑15%（多样+UCB 复合奖励）
下游生成指标 ↑6–10%（同一预算选更好证据）
层级小预算精度 ↑30%（父子后验继承减少冷启动）

一句话总结

本文把“查询分解 + 有限预算检索”重新形式化为多臂赌博机探索-利用问题，提出排序感知+多样性+UCB 的复合奖励与层级相关先验，在20–30% 预算即可达到传统全量检索的精度与生成质量，为 RAG 系统提供自适应、可解释、可扩展的证据选择机制。

阅读全文 →

来源：Arxiv2025-10-21 13:37:11 UTC

🌟 今日前沿论文 · 2025年10月22日

查询分解的 RAG：平衡探索与利用