协同演化连续离散扩散:让你的扩散语言模型成为潜在推理器
来源: | 作者:DE.Tech | 发布时间: 2025-10-06 | 279 次浏览 | 分享到:

🌟 今日前沿论文 · 2025年10月3日

精选科技前沿资讯,洞察科技研究趋势

🔥🔥🔥🔥🔥人工智能

协同演化连续离散扩散:让你的扩散语言模型成为潜在推理器

#扩散模型#语言模型#潜在推理#深度学习
📄 原始标题:
Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner

👥 作者:
Cai Zhou, Chenxiao Yang, Yi Hu, Chenyu Wang, Chubin Zhang, Muhan Zhang, Lester Mackey, Tommi Jaakkola, Stephen Bates, Dinghuai Zhang

📝 英文摘要:
Diffusion language models, especially masked discrete diffusion models, have achieved great success recently. While there are some theoretical and primary empirical results showing the advantages of latent reasoning with looped transformers or continuous chain-of-thoughts, continuous diffusion models typically underperform their discrete counterparts. In this paper, we argue that diffusion language models do not necessarily need to be in the discrete space. In particular, we prove that continuous diffusion models have stronger expressivity than discrete diffusions and looped transformers. We attribute the contradiction between the theoretical expressiveness and empirical performance to their practical trainability: while continuous diffusion provides intermediate supervision that looped transformers lack, they introduce additional difficulty decoding tokens into the discrete token space from the continuous representation space. We therefore propose Coevolutionary Continuous Discrete Diffusion (CCDD), which defines a joint multimodal diffusion process on the union of a continuous representation space and a discrete token space, leveraging a single model to simultaneously denoise in the joint space. By combining two modalities, CCDD is expressive with rich semantics in the latent space, as well as good trainability and sample quality with the help of explicit discrete tokens. We also propose effective architectures and advanced training/sampling techniques for CCDD, which reveals strong empirical performance in extensive language modeling experiments on real-world tasks.

🌏 中文摘要:
扩散语言模型,特别是掩码离散扩散模型,近期取得了巨大成功。虽然一些理论和初步实证结果显示了循环Transformer或连续思维链的潜在推理优势,但连续扩散模型通常表现不如其离散对应物。本文论证扩散语言模型不必局限于离散空间。我们证明连续扩散模型比离散扩散和循环Transformer具有更强的表达能力。我们将理论表达力与实证性能之间的矛盾归因于实际可训练性:虽然连续扩散提供了循环Transformer所缺乏的中间监督,但它们在从连续表示空间解码到离散token空间时引入了额外困难。因此,我们提出协同演化连续离散扩散(CCDD),在连续表示空间和离散token空间的联合上定义了一个多模态扩散过程,利用单一模型在联合空间中同时去噪。通过结合两种模态,CCDD在潜在空间中具有丰富语义的表达能力,并借助显式离散token获得良好的可训练性和样本质量。我们还为CCDD提出了有效的架构和先进的训练/采样技术,在真实任务的广泛语言建模实验中展现了强大的实证性能。

💡 智能问答:

Q1: 这篇论文试图解决什么问题?
论文旨在弥合理论表达能力与实际可训练性在语言建模中的鸿沟,具体聚焦于以下核心问题:

连续扩散模型的表达能力被低估
尽管连续扩散语言模型(CDM)在理论上严格优于离散扩散模型(DDM)和循环 Transformer(LT),其实际性能却显著落后。作者证明:
在轨迹层面,F̃_disc(θ)⊊F_cont(θ),即连续扩散可以产生非原子分布,而离散扩散只能产生有限原子分布。
连续扩散可精确模拟任意深度的循环 Transformer(Proposition 2),且通过随机路径具备更强的表达上限(Theorem 9)。

现有方法的可训练性缺陷
• 循环 Transformer:缺乏中间状态监督,导致推理时深度变化出现分布外(OOD)问题。
• 连续扩散:决策空间过大、嵌入质量低、从连续隐空间解码到离散 token 的组合复杂度高,造成优化困难。

提出联合建模框架 CCDD
为同时获得"强表达力"与"易训练性",作者提出协同演化连续-离散扩散(CCDD):
• 联合前向过程:在离散 token 空间运行 CTMC 掩码扩散,在连续表示空间运行 VP-SDE,二者独立腐蚀。
• 因子化反向过程:单网络 f_θ(x_t,z_t,t) 同时预测离散 token 分布与连续噪声,允许跨模态条件依赖。
• 工程优化:采用高质量上下文嵌入作为连续目标,引入异步噪声调度,让连续表示先生成并充当离散 token 的"隐式推理向导"。

实验验证
在 LM1B 与 OWT 上,同等参数量的 CCDD 相比最强离散扩散基线(MDLM)验证困惑度降低 >25%,且随参数扩展持续改进。

Q2: 有哪些相关研究?
论文系统梳理了三大研究脉络:

1. 循环 Transformer 与隐式思维链
• Universal Transformers:提出权重共享的循环深度,可动态展开
• Looped Transformers:证明循环结构可模拟图灵机
• Mixture-of-Recursions:自适应 token-level 循环深度
• COCONUT / Continuous CoT:用连续隐向量替代离散 CoT token

2. 扩散语言模型
• 离散扩散:D3PM、SEDD、MDLM、GIDD+
• 连续扩散:Diffusion-LM、SSD-LM、Plaid、DUO

3. 表示增强扩散与多模态联合生成
• REPA:训练时对齐扩散内部特征与预训练表示
• ReDi:同时生成图像与表示,提升质量
• Diffusion Forcing:用扩散做任意序预测

Q3: 论文如何解决这个问题?
论文分三步解决核心矛盾:

1. 诊断
严格证明连续扩散轨迹族严格包含离散扩散与循环Transformer,指出三大瓶颈:决策空间过大、解码歧义、缺乏高质量连续目标。

2. 建模:CCDD框架
• 联合前向过程:离散CTMC掩码扩散 + 连续VP-SDE
• 因子化反向过程:单网络双头输出(连续噪声预测 + 离散logits)
• 训练目标:多任务损失,所有时刻均被监督

3. 工程优化
• 上下文嵌入作为连续目标(Qwen3-Embedding第28层)
• 异步噪声调度(连续表示先生成)
• 表示层无分类器引导(CFG)
• 三种架构选择(MDiT、MMDiT、MoEDiT)

Q4: 论文做了哪些实验?
实验涵盖5大类:

1. 主实验
• LM1B:PPL从39.17→29.22(-25.4%)
• OWT:PPL比同规模MDLM低19.4%

2. 推理时缩放
• CFG尺度w=1.5时生成NLL再降0.81
• 首次在语言扩散上展示无分类器引导有效性

3. 消融实验
• 嵌入层选择:第28层上下文嵌入达到最佳平衡
• 调度对比:VP凹形调度优于线性调度
• 架构对比:参数增加带来持续增益

4. 训练效率
• 借助Qwen3-Embedding,200k step即达MDLM 500k step性能

5. 生成样本
• 主题连贯、远距离指代合理
• 人工评测胜率达62%

Q5: 有什么可以进一步探索的点?
未来方向包括:

1. 大规模与多模态扩展
• 十亿级参数预训练
• 多语种、视觉-语言联合编码
• 代码/结构化数据生成

2. 推理机制与可控生成
• 潜空间可解释性分析
• 自适应步数与早停
• 链式思维压缩

3. 理论深化
• 联合空间的表达复杂度
• 优化景观分析
• 跨模态信息瓶颈

4. 训练与推理加速
• 一致性蒸馏
• 量化与边缘部署
• 并行解码

5. 安全与评估
• 生成检测与防伪
• 鲁棒性基准测试

Q6: 总结一下论文的主要内容
问题:连续扩散理论表达力>离散扩散但实证性能落后
理论:严格证明CDM⊋DDM,指出训练瓶颈
方法:CCDD联合SDE-CTMC前向+单网络双头去噪+异步调度
结果:LM1B/OWT上PPL降低19-34%,CFG进一步提升生成质量
意义:首次把连续扩散理论优势转化为可训练、可扩展的语言模型新范式

阅读全文 →

来源:Arxiv2025-10-03 17:44:41 UTC


注:数据公开发布,版权出版方所有,不构成任何投资建议
返回