“看得见却答不对”:探究视觉语言模型中视觉注意力与答案正确性之间的脱节现象
来源: | 作者:DE.Tech | 发布时间: 2025-10-22 | 129 次浏览 | 分享到:
视觉语言模型(VLM)在多模态任务(如视觉问答)中表现出色,但即使存在正确的视觉证据,它们仍可能失败。本研究系统地探究这些失败是源于未感知证据,还是未能有效利用证据。通过分析逐层注意力动态,我们发现浅层主要关注文本,而深层稀疏但可靠地关注局部证据区域。令人惊讶的是,VLM 在输出错误答案时,通常仍能感知到视觉证据,这一现象我们称之为“看得见却答不对”,在主流 VLM 家族中普遍存在。在此基础上,我们提出一种无需训练的推理时干预方法,通过选择性注意力掩码突出深层证据区域。该方法无需训练,且在多个 VLM 家族(包括 LLaVA、Qwen、Gemma 和 InternVL)中一致提升准确性。这些结果表明,VLM 内部已可靠编码视觉证据,但未能充分利用。将这些信号显式化可以弥合感知与推理之间的差距,推进对 VLM 的诊断理解与可靠性提升。

🌟 今日前沿论文 · 2025年10月21日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥AI+视觉

“看得见却答不对”:探究视觉语言模型中视觉注意力与答案正确性之间的脱节现象

#视觉语言模型#视觉问答#注意力机制#模型可靠性#推理增强

论文原始标题:Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs

论文作者:Zhining Liu, Ziyi Chen, Hui Liu, Chen Luo, Xianfeng Tang, Suhang Wang, Joy Zeng, Zhenwei Dai, Zhan Shi, Tianxin Wei, Benoit Dumoulin, Hanghang Tong

原始摘要:Vision-Language Models (VLMs) achieve strong results on multimodal tasks such as visual question answering, yet they can still fail even when the correct visual evidence is present. In this work, we systematically investigate whether these failures arise from not perceiving the evidence or from not leveraging it effectively. By examining layer-wise attention dynamics, we find that shallow layers focus primarily on text, while deeper layers sparsely but reliably attend to localized evidence regions. Surprisingly, VLMs often perceive the visual evidence when outputting incorrect answers, a phenomenon we term ``seeing but not believing'' that widely exists in major VLM families. Building on this, we introduce an inference-time intervention that highlights deep-layer evidence regions through selective attention-based masking. It requires no training and consistently improves accuracy across multiple families, including LLaVA, Qwen, Gemma, and InternVL. These results show that VLMs encode reliable evidence internally but under-utilize it, making such signals explicit can bridge the gap between perception and reasoning, advancing the diagnostic understanding and reliability of VLMs.

翻译标题:“看得见却答不对”:探究视觉语言模型中视觉注意力与答案正确性之间的脱节现象

翻译摘要:视觉语言模型(VLM)在多模态任务(如视觉问答)中表现出色,但即使存在正确的视觉证据,它们仍可能失败。本研究系统地探究这些失败是源于未感知证据,还是未能有效利用证据。通过分析逐层注意力动态,我们发现浅层主要关注文本,而深层稀疏但可靠地关注局部证据区域。令人惊讶的是,VLM 在输出错误答案时,通常仍能感知到视觉证据,这一现象我们称之为“看得见却答不对”,在主流 VLM 家族中普遍存在。在此基础上,我们提出一种无需训练的推理时干预方法,通过选择性注意力掩码突出深层证据区域。该方法无需训练,且在多个 VLM 家族(包括 LLaVA、Qwen、Gemma 和 InternVL)中一致提升准确性。这些结果表明,VLM 内部已可靠编码视觉证据,但未能充分利用。将这些信号显式化可以弥合感知与推理之间的差距,推进对 VLM 的诊断理解与可靠性提升。

智能问答:

Q1: 这篇论文试图解决什么问题?

论文聚焦于视觉-语言模型(VLM)在视觉问答(VQA)任务中“看得见却答不对”的普遍现象:即使图像中已包含充分且正确的视觉证据,模型仍可能输出错误答案。作者系统探究这一失效究竟源于“未感知”还是“未利用”视觉证据,并据此提出一种无需训练的推理时干预方法,以弥合感知与推理之间的断裂。

Q2: 有哪些相关研究?

视觉证据利用不足

多模态幻觉:VLMs 过度依赖语言先验,即使与图像冲突仍“盲信文本”(Ailin et al., 2025; Kang-il et al., 2024; Shengbang et al., 2024)。
架构失衡:大语言骨干+小视觉编码器,使视觉信号被语言主导 (Shi et al., 2024; Cong et al., 2025)。
类似 RAG 中的“上下文利用不足”:检索到的证据被忽略或淹没 (Garima et al., 2024; Fei et al., 2024; Jirui et al., 2025)。

注意力与可解释性

层间模态转移:浅层聚焦文本,深层稀疏关注图像 (Liu et al., 2025; Chen et al., 2025; Tong et al., 2024)。
基于注意力的归因:Grad-CAM、掩码或加权抑制幻觉 (Selvaraju et al., 2017; An et al., 2025; Liu et al., 2025; Shi et al., 2024)。

推理时增强

显式提示、两阶段字幕、最终层注意力掩码、Grad-CAM 集成等无需训练的方法 (INST, CGR, VAR, AGLA)。

Q3: 论文如何解决这个问题?

论文提出 Visual Evidence Augmentation (VEA)——一种无需训练、纯推理时的干预策略,把 VLM 自身深层注意力“看见”的证据显式地反馈给模型,从而强制其在生成阶段“相信”这些证据。流程分三步:

证据层画像(Profiling)

用 100 张带人工证据框的图像离线计算每层对证据 token 的 AUROC,选出平均得分最高的 10 % 层作为视觉接地层集合 L

推理时证据归因

对输入图像,仅做一次前向传播,提取 L 中各层对图像 patch 的平均注意力,得到 patch 级证据得分向量 e

去噪-平滑-高亮

去噪:3×3 邻域滤波,剔除孤立高响应 patch(公式 2)。
平滑:用自适应高斯核 Gσ 卷积,消除马赛克伪影(公式 3)。
高亮:按 I^i,j,c=[α+(1−α)e~i,j]⋅Ii,j,c 合成新图,证据区域保持亮度,其余压暗(公式 4)。

最后把高亮图像重新送入 VLM,用提示“仅使用图中高亮区域的文字回答”得到最终答案。整个过程零参数更新,可在任何 Transformer-based VLM 上即插即用。

Q4: 论文做了哪些实验?

实验围绕四条研究问题(RQs)展开,系统评估所提 VEA 的有效性、证据对齐度、鲁棒性与消融敏感性。具体设置与结果如下:

实验范围

模型:4 个 VLM 家族共 8 个尺寸

– LLaVA-NeXT 7B / 13B
– Qwen2.5-VL 7B / 32B
– Gemma3 4B / 27B
– InternVL3.5 8B / 14B

数据集:VisualCoT 基准下的 4 项细粒度证据型 VQA

– TextVQA、DocVQA、SROIE、InfoVQA

指标:Exact Match、Token-F1(答案质量);AUROC、NDCG@all(证据定位精度)

RQ1 – 效果对比

与 5 种推理时基线(INST、CGR、VAR、AGLA)及 BASE 相比,VEA 在所有模型与数据集上均取得最大平均增益:

Exact Match 平均 +5.67(最高 +11.1)
Token-F1 平均 +6.83(最高 +17.3)
平均排名 1.12,显著优于第二名 AGLA(2.50)

RQ2 – 证据对齐度

以人工标注框为真值,计算 token 级 AUROC/NDCG:

VEA 的 AUROC 普遍 >83,NDCG>60,排名 1.00
较最佳基线 AGLA 再提升约 3–4 个百分点,验证其高亮区域与人工证据重合度最高

RQ3 – 鲁棒性测试

在 LLaVA-NeXT-7B + TextVQA 上施加三类扰动:

高斯噪声(0–100 %)
分辨率降低(0–90 % 像素丢弃)
随机 patch 遮挡(0–70 %)

即使 60 % 噪声或 30 % 遮挡,VEA 仍比 BASE 提升 +16.4 与 +25.8 个百分点,相对增益超 110 %/220 %,展现强鲁棒性

RQ4 – 参数与消融

参数扫描:highlight 强度 α 与平滑 σ 均设为 0.5 时最佳;α 过大或 σ=0 都会显著掉分
模块消融:

– 去噪 w/o Denoise −2.5 EM
– 层画像 w/o Profiling −2.4 EM
– 高斯平滑 w/o Smoothing −5.1 EM
三者均不可缺,平滑步骤影响最大

层注意力可视化补充

给出 6 模型 × 4 数据集的完整 RAPT 曲线、证据-非证据注意力差与逐层 AUROC/NDCG,进一步确认:

浅层重文本、深层重图像的模态转移趋势跨模型稳定
深层对证据 patch 的高响应在答错时依然存在,直接支持“seeing but not believing”现象

Q5: 有什么可以进一步探索的点?

注意力并非唯一信号:梯度、探测向量或隐藏状态也可提供互补的证据定位信息,可构建混合归因器进一步提升定位精度。
动态/早停式画像:目前层集合 L 为一次性静态选择,可探索按任务或样本自适应地即时选择/早停,减少冗余计算。
端到端可学习掩码:VEA 完全推理时,若允许极轻量微调,可用可学习掩码网络替代手工去噪+平滑,实现任务特化的证据高亮。
多图/多跳推理:将证据高亮扩展至多张图像或文档,模型迭代决定“下一次该看哪里”,形成主动视觉 Agent。
自触发增强模块:当注意力熵或置信度低于阈值时,自动调用超分、去雾、局部放大等低成本增强,再反馈给 VLM 进行第二轮推理。
API-Only 模型适配:对无法提取中间注意力的黑盒模型,研究基于输出概率或少量查询的软提示方法,实现无内部状态的近似 VEA。
鲁棒性理论分析:从对抗或噪声泛化角度,建立证据掩码对输入扰动的 Lipschitz 界,解释为何 VEA 在高噪声下仍稳定提升。
人类视觉对比研究:系统比较 VEA 高亮区域与人眼注视热图,验证“模型注意力-人眼-真实证据”三者一致性,深化认知层面的解释。

Q6: 总结一下论文的主要内容

核心发现

浅层→文本,深层→图像:VLM 逐层完成“先读题后看图”的模态转移
深层注意力如探照灯,稀疏却精准地落在关键证据区域
即便最终答错,深层仍高频关注正确证据——“seeing but not believing”现象普遍存在于各主流 VLM

方法:VEA

离线用 100 例诊断集计算每层 AUROC,选出 Top-10% 视觉接地层
推理时仅一次前向提取这些层对图像 patch 的平均注意力 → 证据得分图
邻域去噪 + 自适应高斯平滑 → 平滑掩码
按 I^i,j,c=[α+(1−α)e~i,j]⋅Ii,j,c 合成高亮图,再送模型作答

实验结果

8 模型 × 4 数据集:Exact Match 平均 +5.67,Token-F1 平均 +6.83,排名始终第一
证据定位 AUROC 普遍 >83,显著优于 Grad-CAM 等基线
对 60 % 噪声或 30 % 遮挡仍提升 16–25 分,鲁棒性突出
消融显示去噪、层画像、平滑三步均不可或缺

结论

VLM 内部已可靠编码视觉证据,只需在推理时将其“高亮”即可显著弥合感知与推理的断裂;VEA 为零训练、跨架构、即插即用的通用增强策略。

阅读全文 →

来源:Arxiv2025-10-20 17:31:09 UTC


注:数据公开发布,版权出版方所有,不构成任何投资建议
返回