通过自验证强化学习的自适应时序搜索:用于长视频理解的 TimeSearch-R
论文原始标题:TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
论文作者:Authors: Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She
原始摘要:Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.
翻译标题:通过自验证强化学习的自适应时序搜索:用于长视频理解的 TimeSearch-R
翻译摘要:时序搜索旨在根据给定的查询从数万帧中识别出最少但相关的帧,这是准确理解长视频的基础。现有方法试图逐步缩小搜索空间,但通常依赖手工设计的搜索流程,缺乏端到端优化以学习最优搜索策略。本文提出 TimeSearch-R,将时序搜索重新定义为文本-视频交错思考,通过强化学习(RL)将搜索视频片段无缝整合到推理过程中。然而,将如 GRPO 等 RL 训练方法应用于视频推理可能导致未监督的中间搜索决策,导致视频内容探索不足和逻辑推理不一致。为解决这些问题,我们引入 GRPO 与完整性自验证(GRPO-CSV),从交错推理过程中收集搜索到的视频帧,并利用相同策略模型验证搜索帧的充分性,从而提高视频推理的完整性。此外,我们构建了专门用于 GRPO-CSV 的 SFT 冷启动和 RL 训练数据集,过滤掉时间依赖性弱的样本以提高任务难度和时序搜索能力。广泛的实验表明,TimeSearch-R 在时序搜索基准如 Haystack-LVBench 和 Haystack-Ego4D 以及长视频理解基准如 VideoMME 和 MLVU 上取得了显著提升。值得注意的是,TimeSearch-R 在 LongVideoBench 上以 4.1% 的提升超过了基础模型 Qwen2.5-VL,以 2.0% 的提升超过了高级视频推理模型 Video-R1。我们的代码可在 https://github.com/Time-Search/TimeSearch-R 获取。
论文导览:

智能问答:
Q1: 这篇论文试图解决什么问题?
论文旨在解决长视频理解中的“时序搜索”难题:
给定一条可能包含数万帧的长视频与一个文本问题,如何自动、高效且可解释地定位到最少但足够的关键帧,使得模型能够准确回答该问题。
现有方法存在两大核心缺陷:
手工搜索策略次优——依赖人工设计的固定采样或检索流程,无法针对具体问题和视频内容动态调整;
端到端训练缺失——搜索过程与下游推理割裂,缺乏直接从数据中学习最优搜索策略的机制。
为此,作者提出 TimeSearch-R,将时序搜索重新定义为**“文本-视频交错思考”过程,并通过带完整性自验证的强化学习(GRPO-CSV)**让模型在推理的同时自主决定何时、去哪里、找什么帧,从而在长视频理解任务上实现新的 SOTA。
Q2: 有哪些相关研究?
相关研究可归纳为两条主线:
长视频时序搜索
静态采样:Uniform Sampling、KeyVideoLLM(Liang et al., 2024)
交互式代理:VideoAgent(Wang et al., 2024)、T*(Ye et al., 2025)、VideoTree(Wang et al., 2025)
基于树或滑窗的渐进搜索:Frame-Voyager(Yu et al., 2025)、Logic-in-Frames(Guo et al., 2025)
多模态强化学习
文本推理:GRPO(DeepSeek-AI, 2025)、Search-R1(Jin et al., 2025)
静态图像:MM-Eureka(Meng et al., 2025)、DeepEyes(Zheng et al., 2025)
纯文本思考的视频推理:Video-R1(Feng et al., 2025)
上述工作均未实现端到端、可交互的时序搜索策略学习,TimeSearch-R 首次将 RL 引入“动态帧获取+推理”闭环。
Q3: 论文如何解决这个问题?
论文将“长视频时序搜索”转化为可微的决策过程,通过以下三步实现端到端学习:
任务重定义:文本-视频交错思考
把搜索指令视为模型在 CoT 中发出的 tool_call;每轮模型先输出文本推理 T_k,若包含搜索指令,则环境执行 V_k=search(V; ts_k, te_k, q_k, F) 返回 F 帧并继续下一轮思考,直到给出最终答案 A。
整个轨迹表示为 C_K={ (T1, V1), ..., (TK, VK) }, Pθ(A, C | V~ , Q) = Pθ(C | V~ , Q) Pθ(A | C, V~ , Q)。
强化学习:GRPO-CSV
Rollout 阶段:策略模型 πθ 生成完整轨迹 (C, A)。
完整性自验证(CSV):冻结 πθ,仅用已搜到的帧集 VC 重新回答同一问题,得 Ac。
奖励设计 R = Rc + Rfmt + Racc 其中 Rc = 1[Acc(A, A∗) > 0.5] * Acc(Ac, A∗),迫使模型在原始答案正确的前提下,保证已搜帧足以复现答案,从而抑制“探索不足”与“推理-答案不一致”两种失败模式。
两阶段训练与数据筛选
SFT 冷启动:用 GPT-4o 生成 文本-视频交错 CoT,屏蔽搜索结果迫使模型学习搜索区间与查询。
GRPO-CSV 精调:在自建高质量数据集上继续 RL。该数据集通过两阶段过滤剔除 ① 4 帧即可答对的“语言捷径”样本;② 即使大量搜索仍无法答对的噪声样本,确保 RL 信号有效。
综上,TimeSearch-R 把“搜什么帧”变成策略网络的可微输出,用完整性自验证奖励直接优化搜索充分性与推理一致性,实现长视频理解的新 SOTA。
Q4: 论文做了哪些实验?
实验围绕两条主线展开:
验证时序搜索质量;
验证长视频理解性能。
1. 时序搜索基准
数据集t指标t结果
Haystack-LVBencht时序 F1 / 视觉 F1 / QA Acct8.1 / 69.2 / 52.1(↑5.6 pp F1 时序,↑5.5 pp 视觉)
Haystack-Ego4D-tinytQA Acct53.5(↑8.5 pp)
2. 长视频理解基准
数据集t子集tTimeSearch-R vs 基线
VideoMMEtshort/medium/longt76.8/67.1/56.0(+1.5 pp overall)
MLVUt平均t71.5(+1.3 pp)
LongVideoBencht全测试集t60.1(+4.1 pp vs Qwen2.5-VL-7B,+2.0 pp vs Video-R1)
3. 消融与诊断
训练阶段:零样本 → SFT → RL,RL 将 QA 准确率从 59.2 提到 66.6,一致性 +2.6 pp。
GRPO-CSV 组件:去掉 CSV 后搜索完整度从 60.5% 降到 57.2%,训练 300 步后崩溃(停止调用搜索)。
数据配比:仅用 egocentric 数据可恢复基线,加入 exocentric 后达最佳 66.6%,且在训练未见的“时序/动作”维度上分别提升 7.4 pp 与 5.7 pp,验证策略泛化。
4. 效率对比
在 Haystack-Ego4D 上端到端延迟 13.4 s,比 VideoAgent(34.9 s)快 61.6%,与最轻量的 T*(11.1 s)相当,但显著领先所有基线的搜索 F1 与 QA 准确率。
Q5: 有什么可以进一步探索的点?
以下方向可进一步挖掘,按“方法-数据-评测-理论”四层面展开:
方法层面
层次化记忆机制
当前帧集 VC 为一次性拼接到上下文,显存随搜索轮次线性增长。可引入外部记忆库或压缩记忆 token,用 h(k)mem = fϕ(h(k−1)mem, Pool(Vk) 实现常数空间复杂度,支持小时级视频。
稀疏-密集混合搜索
先用轻量稀疏检索(CLIP 倒排索引)快速缩小候选区间,再在候选内执行密集 DPP 重排,兼顾毫秒级响应与帧质量。
可逆搜索动作
现有动作仅“向前搜索”。增加回溯、跳转、早停等离散动作,把策略空间从 A = {ts, te, q} 扩展到 A′ = A ∪ {back, skip, halt} 并设计对应奖励,减少冗余帧。
数据层面
自监督搜索预训练
利用无标注长视频,设计掩码帧预测任务:随机掩盖 90% 帧,让模型通过搜索找回被掩码的关键帧,以 Lssl = -logP(masked fi | search history) 作为预训练目标,降低对昂贵 QA 标注的依赖。
跨域搜索迁移
目前 RL 数据主要来自 egocentric + web 视频。可引入体育直播、监控、手术等分布外场景,验证策略在 Ptrain(V) ≠ Ptest(V) 时的鲁棒性,并研究域不变搜索表征。
评测层面
细粒度可解释性指标
除 completeness / consistency 外,新增 搜索效率 = 正确回答所需最小帧数 / 实际搜索帧数,因果忠实度 = P(Aflip | drop fi),衡量单帧对答案的因果贡献。建立更全面的时序搜索“帕累托前沿”。
对抗性搜索 benchmark
构造反事实长视频:对原始视频进行帧级篡改(如物体擦除、时序打乱),评估模型能否通过搜索发现矛盾并给出不确定性回答,而非盲目置信。
理论层面
搜索复杂度下界
在“needle-in-haystack”设定下,证明任何随机化策略要获得 ϵ-正确率,所需搜索帧数满足 E[F] ≥ Ω(LS log 1/ε),其中 L 为视频长度,S 为 needle 持续帧数。对比 TimeSearch-R 实际 F,评估其渐进最优性。
RL 奖励塑形收敛性
分析 CSV 奖励 Rc 对策略梯度方差的影响,给出 Var[∇θJ] ≤ C N(1−γ)^2 * 1/E[Rc]^2 的 upper bound,指导如何平衡 Rc 与 Racc 的权重,避免训练崩溃。
一句话总结
从“更快、更省、更鲁棒、更可解释”四个维度,把 TimeSearch-R 扩展为任意长度、任意领域、可证伪的下一代长视频推理框架。
Q6: 总结一下论文的主要内容
论文提出 TimeSearch-R,将长视频“时序搜索”转化为文本-视频交错思考过程,用**带完整性自验证的强化学习(GRPO-CSV)**端到端地学习“何时、去哪、找什么帧”,解决手工策略次优与探索不足的问题。主要贡献与结果如下:
方法
把搜索指令写成 CoT 的 tool_call,动态获取帧集 Vk = search(V; ts_k, te_k, q_k, F)。
在 GRPO 基础上增加 CSV:用同一模型仅凭已搜帧重新回答,奖励 Rc = 1[Acc(A, A∗) > 0.5] * Acc(Ac, A∗) 迫使搜索充分且推理一致。
数据
两阶段过滤:① 4 帧能答即弃;② 64 帧仍不能答即弃,保留高视觉依赖且可解样本,构建高质量 RL 训练集。
实验
时序搜索:Haystack-LVBench 时序 F1 从 2.5→8.1(+5.6 pp),Haystack-Ego4D QA 提升 8.5 pp。
长视频理解:LongVideoBench 达 60.1%,比 Qwen2.5-VL-7B 提升 4.1 pp,比 Video-R1 提升 2.0 pp,建立新 SOTA。
消融显示 CSV 缺失会导致搜索完整度下降、训练崩溃;数据过滤与域多样性对 RL 至关重要。
TimeSearch-R 首次实现可学习的交互式时序搜索,在准确性与效率上均显著优于手工流程。
阅读全文 →
来源:Arxiv2025-11-07 18:58:25 UTC