大型推理模型(LRMs)越狱攻击

基于Chain-of-Thought(推理链)对抗面 的防御框架

聚焦于从“推理链/CoT层面”的对抗面出发,提出主动的推理恢复型防御(Thought Purity),通过数据管线与强化学习让模型识别并隔离恶意逻辑,同时尽量保持正常任务性能。

基于拒绝损失/对抗判别 的越狱检测方法

面向越狱检测而非生成式拒答,利用拒绝(refusal)损失景观的特性构建两步检测机制,通过阈值调节提升对恶意提示的拒绝能力,并尽量保持对正常查询的性能。

可泛化的轻量防御:有害提示触发的影子栈机制

提出轻量级、可快速响应的防御系统(SELFDEFEND),关键假设是越狱最终会包含明确的有害提示片段,因此通过“影子栈”在输入与输出阶段触发检查与可解释响应,覆盖多种既有越狱策略。

越狱攻击的系统评估与分类体系(基准测量/消融)

从评估与系统化梳理角度出发,建立越狱攻击的分类体系(taxonomy),并在多对齐模型、多个违规类别、并结合高级防御进行大规模测量与消融研究,强调攻击可实践性与缓解难度差异。

自动化越狱/防御研究:基于依赖关系图的生成与评估框架

使用有向无环图(DAG)分析攻击/防御/评估之间的依赖关系,提出自动化的攻击与防御生成框架(AutoAttack/AutoDefense)以及更全面的评估方法(AutoEvaluation),强调可扩展、系统化依赖建模。

越狱与安全鲁棒性基准:标准化、可复现与可持续评测

共同点在于围绕“如何评估与构建基准”展开:提供可复现的威胁模型、标准化评测框架、可更新/可持续的基准构造,以及同时覆盖多样攻击因子与安全/鲁棒性维度;其中包含对基准饱和/污染、复用与可扩展性的系统考虑。

可组合/可合成越狱:DSL形式化与自动生成(红队合成器)

提出一种“可组合”的越狱形式化表示(DSL),将越狱定义为参数化字符串变换原语的组合,并用合成器(带bandit算法)自动在黑盒目标模型上搜索高成功攻击;同时配套红队工具与强对齐行为分类器。

CoT/提示机制驱动的越狱策略(自适应搜索、虚拟上下文、理论与增强)

这些工作都将“CoT与提示策略/机制”作为关键变量:包括基于简单自适应搜索的高成功越狱(含logprobs/迁移/前填充等设置)、利用特殊token/虚拟上下文增强越狱、以及对“CoT是否降低危害”的机制性分析与进一步的CoT触发式对抗增强(例如与GCG结合)。

越狱成功机理研究:表示空间与“有效迁移方向”假设

以机理理解为核心:研究成功越狱在表示空间中的内在性质,并提出“将有害提示表示朝向无害方向移动”的假设,进而将现有攻击目标化并验证该方向性解释。

多模态(图文)越狱:先验引导的黑盒跨模态毒性最大化

拓展到多模态(LVLM)越狱,强调黑盒场景与图文交互:通过从有害语料提取恶意特征并作为先验嵌入到图像,再进行跨模态交互优化以最大化毒性输出,体现跨模态威胁建模与攻击优化流程。

攻击实现要素与参数化设置影响(含攻击因子基线)

共同关注“实现层面的关键因素/设置”,即如何通过攻击参数与实现细节(如token/提示构造维度、攻击关键因子)影响成功率,并强调在安全增强模型上评估的重要性;同时提供可复用的评测与实验基线以支撑比较。

大型推理模型(LRMs)越狱攻击

文献整体可归为两大主线:一是“发现与理解越狱”——包括系统化分类评估、表示空间机理、以及CoT/提示机制与多模态等多样化攻击策略;并进一步通过DSL与自动化依赖图实现可组合与可扩展的攻击生成。二是“应对与度量”——包括从推理链/拒绝损失/影子栈等机制出发的检测与防御方法,以及面向复现与可持续的基准构建(标准化威胁模型、鲁棒性维度与基准蒸馏更新)。这些工作共同构成了从威胁建模—攻击生成/理解—评测标准—防御检测的闭环研究图谱。

18 篇文献,11 个研究方向
基于Chain-of-Thought(推理链)对抗面 的防御框架
聚焦于从“推理链/CoT层面”的对抗面出发,提出主动的推理恢复型防御(Thought Purity),通过数据管线与强化学习让模型识别并隔离恶意逻辑,同时尽量保持正常任务性能。相关文献: Zihao Xue et. al, 2025
基于拒绝损失/对抗判别 的越狱检测方法
面向越狱检测而非生成式拒答,利用拒绝(refusal)损失景观的特性构建两步检测机制,通过阈值调节提升对恶意提示的拒绝能力,并尽量保持对正常查询的性能。相关文献: Xiaomeng Hu et. al, 2024
可泛化的轻量防御:有害提示触发的影子栈机制
提出轻量级、可快速响应的防御系统(SELFDEFEND),关键假设是越狱最终会包含明确的有害提示片段,因此通过“影子栈”在输入与输出阶段触发检查与可解释响应,覆盖多种既有越狱策略。相关文献: Daoyuan Wu et. al, 2024
越狱攻击的系统评估与分类体系(基准测量/消融)
从评估与系统化梳理角度出发,建立越狱攻击的分类体系(taxonomy),并在多对齐模型、多个违规类别、并结合高级防御进行大规模测量与消融研究,强调攻击可实践性与缓解难度差异。相关文献: Junjie Chu et. al, 2024
自动化越狱/防御研究:基于依赖关系图的生成与评估框架
使用有向无环图(DAG)分析攻击/防御/评估之间的依赖关系,提出自动化的攻击与防御生成框架(AutoAttack/AutoDefense)以及更全面的评估方法(AutoEvaluation),强调可扩展、系统化依赖建模。相关文献: Lin Lu et. al, 2024
越狱与安全鲁棒性基准:标准化、可复现与可持续评测
共同点在于围绕“如何评估与构建基准”展开:提供可复现的威胁模型、标准化评测框架、可更新/可持续的基准构造,以及同时覆盖多样攻击因子与安全/鲁棒性维度;其中包含对基准饱和/污染、复用与可扩展性的系统考虑。相关文献: Patrick Chao et. al, 2024 等 4 篇文献
可组合/可合成越狱:DSL形式化与自动生成(红队合成器)
提出一种“可组合”的越狱形式化表示(DSL),将越狱定义为参数化字符串变换原语的组合,并用合成器(带bandit算法)自动在黑盒目标模型上搜索高成功攻击;同时配套红队工具与强对齐行为分类器。相关文献: Moussa Koulako Bala Doumbouya et. al, 2024
CoT/提示机制驱动的越狱策略(自适应搜索、虚拟上下文、理论与增强)
这些工作都将“CoT与提示策略/机制”作为关键变量:包括基于简单自适应搜索的高成功越狱(含logprobs/迁移/前填充等设置)、利用特殊token/虚拟上下文增强越狱、以及对“CoT是否降低危害”的机制性分析与进一步的CoT触发式对抗增强(例如与GCG结合)。相关文献: Maksym Andriushchenko et. al, 2024 等 4 篇文献
越狱成功机理研究:表示空间与“有效迁移方向”假设
以机理理解为核心:研究成功越狱在表示空间中的内在性质,并提出“将有害提示表示朝向无害方向移动”的假设,进而将现有攻击目标化并验证该方向性解释。相关文献: Yuping Lin et. al, 2024
多模态(图文)越狱:先验引导的黑盒跨模态毒性最大化
拓展到多模态(LVLM)越狱,强调黑盒场景与图文交互:通过从有害语料提取恶意特征并作为先验嵌入到图像,再进行跨模态交互优化以最大化毒性输出,体现跨模态威胁建模与攻击优化流程。相关文献: Ruoxi Cheng et. al, 2024
攻击实现要素与参数化设置影响(含攻击因子基线)
共同关注“实现层面的关键因素/设置”,即如何通过攻击参数与实现细节(如token/提示构造维度、攻击关键因子)影响成功率,并强调在安全增强模型上评估的重要性;同时提供可复用的评测与实验基线以支撑比较。相关文献: Maksym Andriushchenko et. al, 2024 等 2 篇文献