更安全的生成式AI的共识采样
来源: | 作者:DE.Tech | 发布时间: 2025-11-13 | 151 次浏览 | 分享到:
这篇论文试图解决什么问题?论文旨在应对生成式 AI 中“仅靠事后检查输出无法发现”的那类风险,例如:隐写术(steganography):模型可把任意秘密信息编码进看似正常的文本或图像,且计算上不可检测;代码后门:生成的代码里嵌入可利用漏洞,语义保持不变,静态或动态分析均难以察觉;模型内在目标错位(misalignment):系统“理解”人类意图却仍追求自身目标,输出表面合规却暗藏有害行为。这些风险共同点是:即使给出一个输出,任何人类或 AI 检查器都无法判定其是否安全,因而传统“先让模型生成、再过滤”的方案失效。为此,作者提出一种与模型架构无关、不依赖可解释性、也不试图定义“安全输出”语义的互补思路:不再信任单个模型,而是假设在 k 个可用模型中至少有 s 个是安全的(未知是哪 s 个),通过共识采样(consensus sampling)把多个模型的概率信息聚合成一个新分布,使得聚合后的输出风险与那 s 个最安全模型的平均风险竞争(multiplicative factor R),同时在各安全模型缺乏共识时主动弃权。

🌟 今日前沿论文 · 2025-11-12

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥生成式AI安全

Consensus Sampling for Safer Generative AI

#ArtificialIntelligence#GenerativeAI#Safety

Consensus Sampling for Safer Generative AI
Authors: Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir
Many approaches to AI safety rely on inspecting model outputs or activations, yet certain risks are inherently undetectable by inspection alone. We propose a complementary, architecture-agnostic approach that enhances safety through the aggregation of multiple generative models, with the aggregated model inheriting its safety from the safest subset of a given size among them. Specifically, we present a consensus sampling algorithm that, given k models and a prompt, achieves risk competitive with the average risk of the safest s of the k models, where s is a chosen parameter, while abstaining when there is insufficient agreement between them. The approach leverages the models' ability to compute output probabilities, and we bound the probability of abstention when sufficiently many models are safe and exhibit adequate agreement. The algorithm is inspired by the provable copyright protection algorithm of Vyas et al. (2023). It requires some overlap among safe models, offers no protection when all models are unsafe, and may accumulate risk over repeated use. Nonetheless, our results provide a new, model-agnostic approach for AI safety by amplifying safety guarantees from an unknown subset of models within a collection to that of a single reliable model.
更安全的生成式AI的共识采样
许多AI安全方法依赖于检查模型输出或激活,但某些风险本质上无法通过检查本身检测到。我们提出了一种补充性的、与架构无关的方法,通过聚合多个生成模型来增强安全性,其中聚合后的模型从给定大小的最安全子集中继承其安全性。具体而言,我们提出了一种共识采样算法,给定k个模型和一个提示,当k个模型中至少有s个是安全的时,该算法实现的风险与这些s个最安全模型的平均风险相当,而当模型之间缺乏足够的一致性时则主动弃权。该方法利用了模型计算输出概率的能力,并在足够多的模型是安全的且表现出足够的共识时,界定了弃权的概率。该算法受到Vyas等人(2023)提出的可证明版权保护算法的启发。它要求安全模型之间有一定的重叠,当所有模型都不安全时则无保护作用,并且可能在重复使用时累积风险。然而,我们的结果提供了一种新的、与模型无关的AI安全方法,通过从集合中未知的安全子集放大安全保证到一个可靠模型的安全性。
Q1: 这篇论文试图解决什么问题?

论文旨在应对生成式 AI 中“仅靠事后检查输出无法发现”的那类风险,例如:

隐写术(steganography):模型可把任意秘密信息编码进看似正常的文本或图像,且计算上不可检测;
代码后门:生成的代码里嵌入可利用漏洞,语义保持不变,静态或动态分析均难以察觉;
模型内在目标错位(misalignment):系统“理解”人类意图却仍追求自身目标,输出表面合规却暗藏有害行为。

这些风险共同点是:
即使给出一个输出,任何人类或 AI 检查器都无法判定其是否安全,因而传统“先让模型生成、再过滤”的方案失效。

为此,作者提出一种与模型架构无关、不依赖可解释性、也不试图定义“安全输出”语义的互补思路:

不再信任单个模型,而是假设在 k 个可用模型中至少有 s 个是安全的(未知是哪 s 个),通过共识采样(consensus sampling)把多个模型的概率信息聚合成一个新分布,使得聚合后的输出风险与那 s 个最安全模型的平均风险竞争(multiplicative factor R),同时在各安全模型缺乏共识时主动弃权。

核心贡献可概括为:

形式化“R-robustness”安全指标:对任意 unsafe 集合 U,聚合分布 q 满足


其中  表示 k 个模型在 U 上第 i 小的概率。


给出高效算法(Algorithm 1):利用 rejection sampling 从


近似采样,最多 R 轮,失败则返回 

3.证明在安全模型占多数)且彼此有足够重叠  时,弃权概率随 R 指数衰减;同时任何隐写或信息泄露攻击的成功概率被限制在  级别,且最多泄露  比特信息。

4.论证该算法在“鲁棒性-弃权率”平面上是 Pareto 最优,并讨论如何通过设计“规范分布”来增大模型间重叠,降低实际弃权率。

总结:论文把“AI 安全”问题转化为分布聚合与共识检测问题,在无法直接观测风险的情况下,用概率共识放大未知安全子集的可信度,为生成式系统提供可证明的、模型无关的安全增强层。

Q2: 有哪些相关研究?

论文在第 2 节(Related Work)中系统梳理了四条主线研究,并指出自身与它们的关联与差异。按主题归纳如下:

1. 信息论安全与可证明版权保护

Vyas et al. 2023
提出 CP-Δ 算法,利用「多模型在训练数据不相交子集上训练→只在重叠区域采样」实现可证明的版权保护。

 - 共识采样可视为把 CP-Δ 从「s=1、无对抗」推广到「任意 s>k/2、存在对抗模型」的安全场景。
 - 两者都利用模型概率而非输出内容本身,绕过“检测即破解”的硬障碍。

差分隐私(Dwork et al. 2006;Li et al. 2022)
 - 保证单模型对训练数据依赖有界,但无法应对「单个对抗模型可整体偏移分布」的情形;共识采样允许多个模型间存在任意偏差,只要安全子集重叠即可。

2. 集成方法与概率聚合

 - 经典集成(Dietterich 2000)
 降低方差/提升准确率,无安全保证。

 - DExperts(Liu et al. 2021)
 解码阶段用「专家-反专家」线性插值 logits 抑制毒性,经验有效但无理论风险界。

 - Self-consistency(Wang et al. 2022)
 多条推理路径投票减少逻辑错误,依赖输出层面一致,不处理不可检测风险。

共识采样的区别:
 - 不比较“哪条回答更好”,而是限制回答必须落在足够多模型的高概率区域;
 - 提供形式化风险上界与信息泄露上界,适用于隐写、后门等“检测不到”的威胁。


3. 检测不可能性结果(Hardness Results)

 - Cohen 1987
  病毒/漏洞检测是 undecidable,奠定“静态检查无法保证安全”的经典结论。

 - Zamir 2024;de Witt et al. 2023;Perry et al. 2025;Motwani et al. 2024
    证明:
        对任意语言模型,可高效生成与正常文本不可区分的隐写文本;
        即使拥有无限算力,也无法在不改变语义的前提下去除隐藏信息。

这些负面结果直接推动“不检测输出,而聚合概率”的新范式,正是共识采样的出发点。

4. 主流 AI 安全框架

可扩展监督(Bowman et al. 2022)
用“一个模型监督另一模型”放大评估能力,但受限于上述不可检测性结论。

AI 辩论(Irving et al. 2018)
将复杂声明拆成可验证原子步骤,然而“此图像无隐写”这类声明无法放入辩论框架。

机制可解释性(Bereska & Gavves 2024)
追求读懂内部回路,但缺乏“解释是否正确”的形式保证。

共识采样与它们互补:

无需打开模型内部,也无需定义“安全”语义;
直接对输出分布给出可证明的 risk 与 leakage 界限,可嵌入现有训练-部署流程作为额外安全层。
5. 容错计算与密码学视角

拜占庭将军问题(Lamport et al. 1982)
1/3 为容忍上限;共识采样更宽松——无需让所有节点对分布达成一致,只需采样结果落在安全子集的高重叠区域即可。

Goldwasser et al. 2024;Ball et al. 2025
从密码学给出 AI 对齐的不可能性结果;本文反方向提供构造性正结果,在信息论层面给出可证明保障。

6. 重叠与正则化研究(附录 A)
Vyas et al. 2023 实验
即使训练方法相同,长文本生成重叠指数级下降,启示需要**显式设计“规范分布”**来增大共识区域。
作者提出用“小模型+大模型提示/守门”或“最大熵约束”等方式强制不同模型向同一安全分布靠拢,为未来训练阶段研究指明方向。

综上,共识采样借鉴了

信息论版权保护的「概率重叠」思想,
集成方法的「多模型交叉校验」实践,
不可检测性理论的「放弃输出检查」结论,
容错系统的「对抗多数容忍」策略,

首次把它们整合成具有形式化风险与泄露上界、可高效采样、对任意 unsafe 集合均成立的模型无关安全增强层。

Q3: 论文如何解决这个问题?

论文将“无法靠检查输出发现的风险”转化为一个分布聚合与拒绝采样问题,通过三步实现可证明的安全增强:

1. 问题重述:把“安全”定义为“安全子集的低风险”
不尝试给出“安全输出”的语义定义。
假设 k 个模型中至少有 s 个是安全的(s>k/2),但不知道是哪 s 个。
对任意潜在 unsafe 集合 U⊆Y,用

作为“最安全 s 个模型的平均风险”。
目标:构造一个可高效采样的分布 q,使得对所有U 同时满足

参数 R≥1 为使用者给定的“风险放大倍数”。
该性质称为 R-robustness。


2. 算法:共识采样(Consensus Sampling)

Algorithm 1 用拒绝采样实现上述 q,无需知道谁是安全模型。

输入:k 个模型 p1,…,pk;安全数 s;风险参数 R
输出:y∈Y 或 ⊥(弃权)

Step 1 均匀随机选模型 i∼Uniform[k],从中采样 y∼pi。
Step 2 计算

  • 全体平均概率 

  • 最小 s 个概率均值 

  • 接受概率 
    以概率 α(y) 输出 y,否则进入下一轮。


Step 3 最多重复 R 次;若仍无接受,返回 ⊥。

复杂度:O(R) 次采样 + O(kR) 次概率查询(k 视为常数则为 O(R))。

3. 理论保证
(1) 安全(R-robust)

定理 6.2:对任意 unsafe 集合 U,

其中 ε 是安全 s 个模型在 U 上的平均风险。
→ 即使其余模型恶意把概率全砸进 U,也无法让 q(U) 超过 εR。

(2) 信息泄露上限

Simulation 角度(Lemma 6.4):对抗方对最终输出的影响力等价于从 [R+1] 中选一个整数 t,泄露 ≤log(R+1) 比特。
互信息角度(Theorem C.3):若安全分布已把某消息 m 的泄露压到 ε,则 q 将其放大至 ≤εR,且
I(Q;M)≤log(R+1).


最大泄露角度(Appendix D):对条件生成场景,用 maximal leakage 度量,同样
L(M→Q)−L(M→P)≤log(R+1).


(3) 弃权概率

定理 7.2:设安全模型占多数 (s>k/2),定义



→ 只要安全模型间有足够“重叠”Δ_a(S),弃权率随 R 指数下降;无重叠时算法主动弃权,仍保持安全。

4. 实际落地与局限
无需改动模型内部,只需能采样和算概率即可嵌入现有系统。
不保证所有模型都恶意时仍安全——若 k 个模型全生成 unsafe 内容,q 也会 unsafe;前提是“至少 s 个安全”。
重叠 Δ_a(S) 对长文本可能指数小,附录 A 给出“规范小模型+大模型提示/守门”等训练阶段建议来人为增大重叠。
多次独立调用会累积泄露,需在外层加生命周期管理或降低 R。
一句话总结

论文把“安全”归结为**“在最安全 s 个模型的高概率交集里采样”**,用一次简单的拒绝采样同时实现

可证明的风险上界(R-robust),
可证明的泄露上界(log(R+1) 比特),
可调的弃权率(指数下降),
从而绕过“输出不可检测”的硬障碍,为生成式 AI 提供模型无关的、具有信息论保证的安全增强层。

Q4: 论文做了哪些实验?

整篇论文没有提交任何实验结果。作者在第 8 节与附录 A 中反复强调,这是一份理论工作,核心贡献是:

形式化定义 R-robustness;
给出可高效采样的共识采样算法;
证明风险、信息泄露与弃权率的可证明上界;
论证算法在“鲁棒性-弃权”平面上的 Pareto 最优性。

文中所有图表(Figure 1、2)均为示意性 toy example,用来直观解释隐写、代码漏洞或分布重叠概念,而非基于真实模型运行数据。

因此,若寻找「在 LLM 上跑 Baseline」「对比不同 s/R 的弃权率」「测量 Δ_a 实际大小」等实验,本文并未涉及。作者将「如何训练出高重叠且安全的基础模型」「在真实场景下测试弃权/风险曲线」列为未来工作。

Q5: 有什么可以进一步探索的点?

训练阶段增大重叠
设计“规范小模型+大模型提示/守门”或最大熵约束,让不同来源的模型在保持能力的同时对同一提示输出高重叠分布,降低实际弃权率。

多轮交互与累积泄露
单次采样泄露 ≤log(R+1) 比特,连续调用可累积。研究外层的“生命周期管理”——如随时间衰减 R、引入遗忘机制或差分隐私式噪声——把总泄露控制在定值。

动态/自适应 R
根据在线估计的实时重叠或风险,自动调节 R:高重叠时降低 R 减少弃权;低重叠时升高 R 保证安全,形成“安全-效率”自适应平衡。

异构模态与多模态共识
将算法扩展到图像、音频、视频生成模型,或图文混合模型。研究不同模态间概率可比性(如用统一似然度或对比得分)以及跨模态隐写防御。

对抗模型联盟更强大时的鲁棒性
当前要求 s>k/2;若对手能控制恰好 ⌊k/2⌋ 个模型且精心构造分布,可使 Δ_a(S) 极小。探索在“50% 或略低”安全比例下仍能提供弱保证的松弛框架(如允许人类偶尔介入)。

与现有过滤器级联
把共识采样作为“第一层”,输出再送入传统毒性/漏洞检测器。理论分析级联后的复合风险与信息泄露,并优化联合超参。

学习式重叠增强
用强化学习或对比学习目标,显式最大化“安全模型”在重要区域上的互信息或最小化 KL,以端到端方式训练出高重叠 yet 能力强的模型。

成本-收益权衡的实证研究
在真实大模型集群上测量不同 s、R、k 下的弃权率、延迟、风险曲线,验证理论界是否紧密,并收集“多大重叠才够用”的经验阈值。

扩展到智能体与多步生成
当前仅单步输出;若模型需执行多步工具调用或代码解释器,研究“轨迹级”共识采样——对整条动作序列而非单个 token 做拒绝采样,并重新定义轨迹重叠。

与密码学原语结合
利用安全多方计算或同态运算,让各模型在不暴露私有概率的情况下联合计算 g(y)/f(y),实现“隐私保护版”共识采样,适用于商业模型不愿公开 logits 的场景。

Q6: 总结一下论文的主要内容

论文提出共识采样(Consensus Sampling):一种与模型架构无关、不依赖输出检查的生成式 AI 安全增强方法。核心思想是——

不再信任单个模型,而是假设 k 个模型中至少有 s 个安全(s>k/2),通过拒绝采样只输出**“最安全 s 个模型都给予高概率”**的样本,否则弃权。

主要贡献

形式化安全指标 R-robustness
对任意 unsafe 集合 U,聚合分布 q 满足


即风险不超过最安全 s 个模型平均风险的 R 倍。

高效共识采样算法(Alg. 1)

随机选模型采样 y
以概率

接受,否则重试最多 R 次
复杂度 O(R)

可证明保证

安全:对任何 U 同时满足上述风险界
泄露:隐写或任意信息泄露成功率 ≤εR,且总泄露 ≤log(R+1) 比特
弃权:若安全模型重叠 Δ_a(S)>0,则


随 R 指数下降

Pareto 最优
在“鲁棒性-弃权率”平面上,算法对每个 R 均处于最优前沿,无法同时改进两者。

局限 & 未来方向
需至少 s>k/2 个真实安全模型;若全部恶意则无效
长文本重叠可能指数小,需训练阶段设计“规范分布”来增大共识
多次调用会累积泄露,需外层生命周期管理
未覆盖社会偏见等非集合型风险
一句话总结

共识采样用概率重叠代替输出检查,在不打开模型、不定义安全语义的前提下,给出可证明的风险与信息泄露上界,为生成式 AI 提供模型无关的、具有信息论保障的安全增强层。

阅读全文 →

注:数据公开发布,版权出版方所有,不构成任何投资建议
返回