Diffusion Language models

本报告综合了扩散语言模型（DLM）领域的最新研究进展，揭示了该方向正从早期的离散扩散理论探索迈向大规模工程化与应用化。核心研究聚焦于：1) 通过优化架构与缩放定律提升基础生成能力；2) 利用并行解码与投机采样攻克推理速度瓶颈；3) 引入强化学习与思维链技术增强复杂逻辑推理；4) 扩展至多模态与具身智能等前沿领域。DLM凭借其非自回归的并行特性与强大的可控性，正成为自回归模型（AR）在长文本生成、跨模态理解及高效部署方面的有力竞争者。

共 107 篇文献，6 个研究方向

核心架构设计、预训练优化与缩放定律

该组文献奠定了扩散语言模型（DLM）的理论与工程基础，涵盖离散/连续扩散框架的统一、大规模预训练目标（如Masked Diffusion）的优化、以及探讨模型性能随计算量增长的Scaling Laws。研究重点在于如何打破自回归模型的串行局限，建立高效的生成基座。相关文献: Shen Nie et. al, 2025 等 25 篇文献

高效推理加速、并行解码与采样调度

针对扩散模型推理延迟高的瓶颈，这组文献提出了多种加速策略。包括适配扩散模型的KV-Cache机制、投机解码（Speculative Decoding）、并行采样算法、蒸馏技术（如一致性蒸馏）以及自适应步长调度，旨在实现与自回归模型相当甚至更快的生成速度。相关文献: Xinyin Ma et. al, 2025 等 27 篇文献

复杂逻辑推理增强与强化学习对齐

该组文献探讨如何提升扩散模型在数学、代码等任务中的逻辑推理能力。研究包括引入思维链（CoT）生成、针对扩散过程改进的强化学习算法（如变分减少、步骤感知策略优化、GRPO变体）以及在潜在空间进行推理的方法。相关文献: Jiacheng Ye et. al, 2024 等 15 篇文献

可控生成、引导采样与解码动力学研究

研究如何在推理阶段对扩散模型进行精细控制。涵盖了引导机制（Guidance）、水印植入、偏见消除、文本填充（Infilling）以及通过重掩码（Remasking）和软标记演化来修正生成错误的动态解码技术。相关文献: Adi Shnaidman et. al, 2025 等 15 篇文献

多模态扩展与跨领域应用实证

这些文献展示了扩散语言模型在多模态（视觉-语言-动作 VLA）、音频生成、生物医学（蛋白质序列）、代码生成及推荐系统等领域的广泛应用，证明了其作为通用生成范式的潜力。相关文献: Alexander Swerdlow et. al, 2025 等 14 篇文献

理论分析、内部机制与模型鲁棒性

该组论文从数学和机制层面深入剖析DLM。研究包括收敛性证明、注意力机制中的Sinks现象、噪声特性分析、以及将扩散模型与能量模型（EBM）或变分自编码器（VAE）结合的理论探索。相关文献: Yuchen Liang et. al, 2025 等 11 篇文献

总计167篇相关文献

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

块状扩散：自回归和扩散语言模型之间的插值

Marianne Arriola, Aaron Gokaslan, Justin T Chiu 等, 2025-... International Conference on Learning Representations

Diffusion language models offer unique benefits over autoregressive models due to their potential for parallelized generation and controllability, yet they lag in likelihood modeling and are limited to fixed-length generation. In this work, we introduce a class of block diffusion language models that interpolate between discrete denoising diffusion and autoregressive models. Block diffusion overcomes key limitations of both approaches by supporting flexible-length generation and improving inference efficiency with KV caching and parallel token sampling. We propose a recipe for building effective block diffusion models that includes an efficient training algorithm, estimators of gradient variance, and data-driven noise schedules to minimize the variance. Block diffusion sets a new state-of-the-art performance among diffusion models on language modeling benchmarks and enables generation of arbitrary-length sequences. We provide the code, along with the model weights and blog post on the project page: https://m-arriola.com/bd3lms.