大型推理模型(LRMs)越狱攻击

基于Chain-of-Thought（推理链）对抗面的防御框架

聚焦于从“推理链/CoT层面”的对抗面出发，提出主动的推理恢复型防御（Thought Purity），通过数据管线与强化学习让模型识别并隔离恶意逻辑，同时尽量保持正常任务性能。

Thought Purity: A Defense Framework For Chain-of-Thought Attack（Zihao Xue, Zhen Bi, Long Ma, Zhenlin Hu, Yan Wang, Xueshu Chen, Zhenfang Liu, Kang Zhao, Jie Xiao, Jungang Lou, 2025, ArXiv Preprint）

基于拒绝损失/对抗判别的越狱检测方法

面向越狱检测而非生成式拒答，利用拒绝（refusal）损失景观的特性构建两步检测机制，通过阈值调节提升对恶意提示的拒绝能力，并尽量保持对正常查询的性能。

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes（Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho, 2024, ArXiv Preprint）

可泛化的轻量防御：有害提示触发的影子栈机制

提出轻量级、可快速响应的防御系统（SELFDEFEND），关键假设是越狱最终会包含明确的有害提示片段，因此通过“影子栈”在输入与输出阶段触发检查与可解释响应，覆盖多种既有越狱策略。

LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper（Daoyuan Wu, Shuai Wang, Yang Liu, Ning Liu, 2024, ArXiv Preprint）

越狱攻击的系统评估与分类体系（基准测量/消融）

从评估与系统化梳理角度出发，建立越狱攻击的分类体系（taxonomy），并在多对齐模型、多个违规类别、并结合高级防御进行大规模测量与消融研究，强调攻击可实践性与缓解难度差异。

JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs（Junjie Chu, Yugeng Liu, Ziqing Yang, Xinyue Shen, Michael Backes, Yang Zhang, 2024, ArXiv Preprint）

自动化越狱/防御研究：基于依赖关系图的生成与评估框架

使用有向无环图（DAG）分析攻击/防御/评估之间的依赖关系，提出自动化的攻击与防御生成框架（AutoAttack/AutoDefense）以及更全面的评估方法（AutoEvaluation），强调可扩展、系统化依赖建模。

AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens（Lin Lu, Hai Yan, Zenghui Yuan, Jiawen Shi, Wenqi Wei, Pin-Yu Chen, Pan Zhou, 2024, ArXiv Preprint）

越狱与安全鲁棒性基准：标准化、可复现与可持续评测

共同点在于围绕“如何评估与构建基准”展开：提供可复现的威胁模型、标准化评测框架、可更新/可持续的基准构造，以及同时覆盖多样攻击因子与安全/鲁棒性维度；其中包含对基准饱和/污染、复用与可扩展性的系统考虑。

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models（Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, Eric Wong, 2024, ArXiv Preprint）
Jailbreak Distillation: Renewable Safety Benchmarking（Jingyu Zhang, Ahmed Elgohary, Xiawei Wang, A S M Iftekhar, Ahmed Magooda, Benjamin Van Durme, Daniel Khashabi, Kyle Jackson, 2025, ArXiv Preprint）
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs（Zhao Xu, Fan Liu, Hao Liu, 2024, ArXiv Preprint）
Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models（Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan, 2023, ArXiv Preprint）

可组合/可合成越狱：DSL形式化与自动生成（红队合成器）

提出一种“可组合”的越狱形式化表示（DSL），将越狱定义为参数化字符串变换原语的组合，并用合成器（带bandit算法）自动在黑盒目标模型上搜索高成功攻击；同时配套红队工具与强对齐行为分类器。

h4rm3l: A language for Composable Jailbreak Attack Synthesis（Moussa Koulako Bala Doumbouya, Ananjan Nandi, Gabriel Poesia, Davide Ghilardi, Anna Goldie, Federico Bianchi, Dan Jurafsky, Christopher D. Manning, 2024, ArXiv Preprint）

CoT/提示机制驱动的越狱策略（自适应搜索、虚拟上下文、理论与增强）

这些工作都将“CoT与提示策略/机制”作为关键变量：包括基于简单自适应搜索的高成功越狱（含logprobs/迁移/前填充等设置）、利用特殊token/虚拟上下文增强越狱、以及对“CoT是否降低危害”的机制性分析与进一步的CoT触发式对抗增强（例如与GCG结合）。

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks（Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, 2024, ArXiv Preprint）
Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection（Yuqi Zhou, Lin Lu, Hanchi Sun, Pan Zhou, Lichao Sun, 2024, ArXiv Preprint）
Does Chain-of-Thought Reasoning Really Reduce Harmfulness from Jailbreaking?（Chengda Lu, Xiaoyu Fan, Yu Huang, Rongwu Xu, Jijie Li, Wei Xu, 2025, ArXiv Preprint）
Enhancing Adversarial Attacks through Chain of Thought（Jingbo Su, 2024, ArXiv Preprint）

越狱成功机理研究：表示空间与“有效迁移方向”假设

以机理理解为核心：研究成功越狱在表示空间中的内在性质，并提出“将有害提示表示朝向无害方向移动”的假设，进而将现有攻击目标化并验证该方向性解释。

Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis（Yuping Lin, Pengfei He, Han Xu, Yue Xing, Makoto Yamada, Hui Liu, Jiliang Tang, 2024, ArXiv Preprint）

多模态（图文）越狱：先验引导的黑盒跨模态毒性最大化

拓展到多模态（LVLM）越狱，强调黑盒场景与图文交互：通过从有害语料提取恶意特征并作为先验嵌入到图像，再进行跨模态交互优化以最大化毒性输出，体现跨模态威胁建模与攻击优化流程。

PBI-Attack: Prior-Guided Bimodal Interactive Black-Box Jailbreak Attack for Toxicity Maximization（Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Ranjie Duan, Xiaoshuang Jia, Shaowei Yuan, Simeng Qin, Zhiqiang Wang, Xiaojun Jia, 2024, ArXiv Preprint）

攻击实现要素与参数化设置影响（含攻击因子基线）

共同关注“实现层面的关键因素/设置”，即如何通过攻击参数与实现细节（如token/提示构造维度、攻击关键因子）影响成功率，并强调在安全增强模型上评估的重要性；同时提供可复用的评测与实验基线以支撑比较。

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks（Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, 2024, ArXiv Preprint）
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs（Zhao Xu, Fan Liu, Hao Liu, 2024, ArXiv Preprint）

大型推理模型(LRMs)越狱攻击

文献整体可归为两大主线：一是“发现与理解越狱”——包括系统化分类评估、表示空间机理、以及CoT/提示机制与多模态等多样化攻击策略；并进一步通过DSL与自动化依赖图实现可组合与可扩展的攻击生成。二是“应对与度量”——包括从推理链/拒绝损失/影子栈等机制出发的检测与防御方法，以及面向复现与可持续的基准构建（标准化威胁模型、鲁棒性维度与基准蒸馏更新）。这些工作共同构成了从威胁建模—攻击生成/理解—评测标准—防御检测的闭环研究图谱。

共 18 篇文献，11 个研究方向

基于Chain-of-Thought（推理链）对抗面的防御框架

聚焦于从“推理链/CoT层面”的对抗面出发，提出主动的推理恢复型防御（Thought Purity），通过数据管线与强化学习让模型识别并隔离恶意逻辑，同时尽量保持正常任务性能。相关文献: Zihao Xue et. al, 2025

基于拒绝损失/对抗判别的越狱检测方法

面向越狱检测而非生成式拒答，利用拒绝（refusal）损失景观的特性构建两步检测机制，通过阈值调节提升对恶意提示的拒绝能力，并尽量保持对正常查询的性能。相关文献: Xiaomeng Hu et. al, 2024

可泛化的轻量防御：有害提示触发的影子栈机制

提出轻量级、可快速响应的防御系统（SELFDEFEND），关键假设是越狱最终会包含明确的有害提示片段，因此通过“影子栈”在输入与输出阶段触发检查与可解释响应，覆盖多种既有越狱策略。相关文献: Daoyuan Wu et. al, 2024

越狱攻击的系统评估与分类体系（基准测量/消融）

从评估与系统化梳理角度出发，建立越狱攻击的分类体系（taxonomy），并在多对齐模型、多个违规类别、并结合高级防御进行大规模测量与消融研究，强调攻击可实践性与缓解难度差异。相关文献: Junjie Chu et. al, 2024

自动化越狱/防御研究：基于依赖关系图的生成与评估框架

使用有向无环图（DAG）分析攻击/防御/评估之间的依赖关系，提出自动化的攻击与防御生成框架（AutoAttack/AutoDefense）以及更全面的评估方法（AutoEvaluation），强调可扩展、系统化依赖建模。相关文献: Lin Lu et. al, 2024

越狱与安全鲁棒性基准：标准化、可复现与可持续评测

共同点在于围绕“如何评估与构建基准”展开：提供可复现的威胁模型、标准化评测框架、可更新/可持续的基准构造，以及同时覆盖多样攻击因子与安全/鲁棒性维度；其中包含对基准饱和/污染、复用与可扩展性的系统考虑。相关文献: Patrick Chao et. al, 2024 等 4 篇文献

可组合/可合成越狱：DSL形式化与自动生成（红队合成器）

提出一种“可组合”的越狱形式化表示（DSL），将越狱定义为参数化字符串变换原语的组合，并用合成器（带bandit算法）自动在黑盒目标模型上搜索高成功攻击；同时配套红队工具与强对齐行为分类器。相关文献: Moussa Koulako Bala Doumbouya et. al, 2024

CoT/提示机制驱动的越狱策略（自适应搜索、虚拟上下文、理论与增强）

这些工作都将“CoT与提示策略/机制”作为关键变量：包括基于简单自适应搜索的高成功越狱（含logprobs/迁移/前填充等设置）、利用特殊token/虚拟上下文增强越狱、以及对“CoT是否降低危害”的机制性分析与进一步的CoT触发式对抗增强（例如与GCG结合）。相关文献: Maksym Andriushchenko et. al, 2024 等 4 篇文献

越狱成功机理研究：表示空间与“有效迁移方向”假设

以机理理解为核心：研究成功越狱在表示空间中的内在性质，并提出“将有害提示表示朝向无害方向移动”的假设，进而将现有攻击目标化并验证该方向性解释。相关文献: Yuping Lin et. al, 2024

多模态（图文）越狱：先验引导的黑盒跨模态毒性最大化

拓展到多模态（LVLM）越狱，强调黑盒场景与图文交互：通过从有害语料提取恶意特征并作为先验嵌入到图像，再进行跨模态交互优化以最大化毒性输出，体现跨模态威胁建模与攻击优化流程。相关文献: Ruoxi Cheng et. al, 2024

攻击实现要素与参数化设置影响（含攻击因子基线）

共同关注“实现层面的关键因素/设置”，即如何通过攻击参数与实现细节（如token/提示构造维度、攻击关键因子）影响成功率，并强调在安全增强模型上评估的重要性；同时提供可复用的评测与实验基线以支撑比较。相关文献: Maksym Andriushchenko et. al, 2024 等 2 篇文献

总计16篇相关文献

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

利用简单自适应攻击破解与安全一致的大型语言模型

arxiv.org-Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, 2024-ArXiv Preprint

We show that even the most recent safety-aligned LLMs are not robust to simple adaptive jailbreaking attacks. First, we demonstrate how to successfully leverage access to logprobs for jailbreaking: we initially design an adversarial prompt template (sometimes adapted to the target LLM), and then we apply random search on a suffix to maximize a target logprob (e.g., of the token "Sure"), potentially with multiple restarts. In this way, we achieve 100% attack success rate -- according to GPT-4 as a judge -- on Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, and R2D2 from HarmBench that was adversarially trained against the GCG attack. We also show how to jailbreak all Claude models -- that do not expose logprobs -- via either a transfer or prefilling attack with a 100% success rate. In addition, we show how to use random search on a restricted set of tokens for finding trojan strings in poisoned models -- a task that shares many similarities with jailbreaking -- which is the algorithm that brought us the first place in the SaTML'24 Trojan Detection Competition. The common theme behind these attacks is that adaptivity is crucial: different models are vulnerable to different prompting templates (e.g., R2D2 is very sensitive to in-context learning prompts), some models have unique vulnerabilities based on their APIs (e.g., prefilling for Claude), and in some settings, it is crucial to restrict the token search space based on prior knowledge (e.g., for trojan detection). For reproducibility purposes, we provide the code, logs, and jailbreak artifacts in the JailbreakBench format at https://github.com/tml-epfl/llm-adaptive-attacks.

大型推理模型(LRMs)越狱攻击

基于Chain-of-Thought（推理链）对抗面 的防御框架

基于拒绝损失/对抗判别 的越狱检测方法

可泛化的轻量防御：有害提示触发的影子栈机制

越狱攻击的系统评估与分类体系（基准测量/消融）

自动化越狱/防御研究：基于依赖关系图的生成与评估框架

越狱与安全鲁棒性基准：标准化、可复现与可持续评测

可组合/可合成越狱：DSL形式化与自动生成（红队合成器）

CoT/提示机制驱动的越狱策略（自适应搜索、虚拟上下文、理论与增强）

越狱成功机理研究：表示空间与“有效迁移方向”假设

多模态（图文）越狱：先验引导的黑盒跨模态毒性最大化

攻击实现要素与参数化设置影响（含攻击因子基线）

基于Chain-of-Thought（推理链）对抗面的防御框架

基于拒绝损失/对抗判别的越狱检测方法