大型推理模型(LRMs)越狱攻击

越狱攻击的系统性表征、分类与评测/基准框架(DoAnythingNow/JailbreakHub等)

从“越狱是什么、有哪些模式/策略、如何稳定评估与基准化”出发,建立系统性分类与可复现测量框架,并讨论DoAnythingNow类工作对越狱能力表征、成功率与持续性评估的总体方法学贡献。

面向LRM推理链的专门化越狱与LRM自主/代理式越狱

聚焦LRM与推理链条的特异漏洞:一方面研究推理模型作为自主攻击代理的自治扩展风险;另一方面提出面向推理链的专门化攻击(如针对其脆弱推理路径);同时从部署形态角度对比模型级与代理级攻击面差异(agentic loop中的额外漏洞面)。

提示工程/文本推理型越狱:语义翻译、结构化推理诱导与可迁移构造

以文本对话/推理流程为核心攻击面,强调用结构、推理链与语义/形式化变换来生成越狱:包括多轮推理型构造、思维诱导与攻击机理解析、以及通过语义翻译/形式化结构提升可读性与跨场景可迁移性。

自动化发现与红队/攻击搜索(RL/fuzzing/优化目标度量)

将越狱发现建模为可搜索/可优化的过程:使用RL、fuzzing与基于评分/偏好目标的搜索来生成有效且多样的攻击样本,强调度量定义、探索效率与Pareto最优路径,而非仅依赖手工模板。

越狱提示生成的可扩展方法:蒸馏型攻击器、进化persona与蒸馏/生成扩散式构造

围绕“规模化生成高质量越狱”的工程路线:通过知识蒸馏压缩攻击知识以降低提示工程/查询成本;并用进化方法自动构造persona prompts以减少拒答率;同时吸收扩散/生成式操控带来的多样性增强。

多轮到单轮与上下文盲区利用:对抗提示重写/结构枚举式嵌入

研究在交互成本约束下维持攻击强度:将多轮越狱压缩为单轮,利用结构化/枚举式/代码式嵌入去触发模型的上下文盲区,从而降低人力与对话轮数依赖。

意图混淆与隐身规避型越狱:分解重建、双向/双层混淆与毒性诱导

以“更难被识别”为目标:通过意图锚定隐藏、prompt分解与重建、查询-响应双向混淆、语义/分词/干扰项(distractors)与连续序列扰动提升隐蔽性与可迁移成功率;并结合毒性诱导机制在黑盒条件下提升ASR与危害性。

编码/表示层混淆与加密解码触发型越狱(BitBypass/Lock&Decode)

强调不依赖传统模板提示工程,而是从信息表示/触发机制入手:通过位流/编码层伪装与密码学式混淆+解码触发,在黑盒下绕过安全对齐。

查询-响应联合混淆与游戏化/语义分解越狱(WordGame等)

聚焦“对齐语义解析的扰动方式”:用文字游戏、语义分解与对齐语料覆盖不足来在查询与生成响应两端共同施加掩蔽,从而提高绕过成功率。

多模态与跨模态越狱(VLM/MLLM:视觉扰动、跨模态一致性、跨模态安全边界绕过)

将攻击面从纯文本扩展到VLM/MLLM与跨模态通道:通过视觉扰动、跨模态语义一致性/隐身、以及系统或多模态输入的自对抗与概率建模来提升可迁移性与隐蔽性。

系统/管线级越狱与检索增强(Knowledge-to-Action/Agentic)

针对LLM驱动的“检索增强/知识到行动”管线:研究如何诱导检索到有害指令/要点,并进一步利用奖励追逐偏置生成可直接执行的危险内容;攻击发生在检索-生成耦合与行动生成环节。

自动化多轮红队与多步交互式越狱(AutoAdv/MAD-MAX/MDP等)

将攻击提升到长时域决策:通过多步对话迭代、强化学习/MDP建模与代理式跟进来提升成功率与多样性,使攻击适配真实场景中的持续交互与上下文演化。

基于搜索与优化的越狱提示发现(GAP/SMJ/剪枝与few-shot改进)

把越狱发现形式化为搜索/优化问题:利用结构共享(图结构)、剪枝降低查询成本,并在语义约束下进行进化或few-shot自适应,以提升发现效率与成功率。

越狱评估与鲁棒性刻画:度量定义、基准数据与潜在越狱(latent jailbreak)

聚焦“如何评估”:定义越狱有效性的量化指标与评估框架,构建带层次标注或潜在恶意嵌入的基准(latent jailbreak),并从推理/对齐差距角度对齐越狱问题以便系统研究鲁棒性。

面向护栏规避的防护绕过与AML/输入注入对抗(Guardrails/检测系统脆弱性)

研究安全护栏与检测模块的可规避性:通过字符/输入注入与算法化对抗(AML)绕过检测,并用词排序/构造等方法评估对ASR与拒答的影响,回答“防护为何失效”。

检测与前置防护:拒绝相关损失/梯度特征、通用识别框架与提示变换一致性

以“检测”为核心:利用拒绝相关损失景观与梯度/特征信号识别越狱意图,或提出通用检测框架(如输入变换与输出差异一致性)作为前置防线,而不是直接改模型输出。

推理占位、对抗情景外推与安全上下文检索(Defender:CoT occupation/ASE/SCR)

防御侧从推理环节介入:通过推理占位(CoT occupation)和对抗情景外推(ASE)降低攻击成功率,并结合安全上下文检索(SCR)提高系统在开放场景下的安全稳健性。

通用越狱的守护与提示级固化:Constitutional Classifiers / PAT / SelfDefend

面向“通用/普适(universal)越狱”设计可部署的守护机制:通过合宪式规则生成分类器抵御跨分布攻击;并用提示级固化/对抗调优或影子守护方法在较小开销下增强防护。

机制级对齐移除/参数干预(安全拒绝机制的结构性绕过)

从模型内部安全机制出发:将安全对齐视为可定位的结构/嵌入后门或拒绝机制,通过参数剪枝、后门化理解与结构相似样本隔离等方式实现机制级绕过或移除。

内部激活操控与细粒度机制攻击(ActMan)

聚焦中间激活的细粒度操控:通过注意力/隐蔽异常激活穿透检测阶段,并在后期改变风险评估链路以增强潜在危害。

越狱与安全链/实验流程/数据划分:SafeChain等方法学补充

从实验设计与数据划分流程角度为越狱研究提供方法学支撑:围绕随机抽取、分割设置与WildJailbreak等方向的扩展研究,强调研究可复现与评测公平性。

攻击效率与跨任务评测:低查询成本(ICE)与面向多任务的评测扩展(BiSceneEval)

强调可操作性与评测覆盖:通过单次/低查询成本提升成功率,并构建跨问答与文本生成等任务的扩展评测体系以暴露现有评测对QA场景的盲区。

大型推理模型(LRMs)越狱攻击

合并后,文献主要覆盖八类并列方向:①越狱的系统性表征/分类与评测基准;②LRM推理链与自主代理式越狱;③文本推理型越狱的构造与可迁移生成;④自动化红队/攻击搜索与优化;⑤多模态与检索增强/系统管线(knowledge-to-action)带来的额外攻击面;⑥隐身规避型(混淆、分解重建、双层混淆、编码加密触发)攻击;⑦检测与防御(检测框架、推理占位/对抗情景外推/安全检索、提示级固化与通用守护);⑧机制级干预(激活操控、参数/对齐机制移除)与实验流程方法学。整体体现LRMs越狱研究从“提示层模板”走向“推理链/管线/机制级”并同步强化“可搜索发现 + 可复现评测 + 可部署防御”的闭环。

77 篇文献,22 个研究方向
越狱攻击的系统性表征、分类与评测/基准框架(DoAnythingNow/JailbreakHub等)
从“越狱是什么、有哪些模式/策略、如何稳定评估与基准化”出发,建立系统性分类与可复现测量框架,并讨论DoAnythingNow类工作对越狱能力表征、成功率与持续性评估的总体方法学贡献。相关文献: Yi Liu et. al, 2024 等 6 篇文献
面向LRM推理链的专门化越狱与LRM自主/代理式越狱
聚焦LRM与推理链条的特异漏洞:一方面研究推理模型作为自主攻击代理的自治扩展风险;另一方面提出面向推理链的专门化攻击(如针对其脆弱推理路径);同时从部署形态角度对比模型级与代理级攻击面差异(agentic loop中的额外漏洞面)。相关文献: Thilo Hagendorff et. al, 2025 等 4 篇文献
提示工程/文本推理型越狱:语义翻译、结构化推理诱导与可迁移构造
以文本对话/推理流程为核心攻击面,强调用结构、推理链与语义/形式化变换来生成越狱:包括多轮推理型构造、思维诱导与攻击机理解析、以及通过语义翻译/形式化结构提升可读性与跨场景可迁移性。相关文献: Zonghao Ying et. al, 2025 等 8 篇文献
自动化发现与红队/攻击搜索(RL/fuzzing/优化目标度量)
将越狱发现建模为可搜索/可优化的过程:使用RL、fuzzing与基于评分/偏好目标的搜索来生成有效且多样的攻击样本,强调度量定义、探索效率与Pareto最优路径,而非仅依赖手工模板。相关文献: Weiyang Guo et. al, 2025 等 5 篇文献
越狱提示生成的可扩展方法:蒸馏型攻击器、进化persona与蒸馏/生成扩散式构造
围绕“规模化生成高质量越狱”的工程路线:通过知识蒸馏压缩攻击知识以降低提示工程/查询成本;并用进化方法自动构造persona prompts以减少拒答率;同时吸收扩散/生成式操控带来的多样性增强。相关文献: Buyun Liang et. al, 2025 等 3 篇文献
多轮到单轮与上下文盲区利用:对抗提示重写/结构枚举式嵌入
研究在交互成本约束下维持攻击强度:将多轮越狱压缩为单轮,利用结构化/枚举式/代码式嵌入去触发模型的上下文盲区,从而降低人力与对话轮数依赖。相关文献: Junwoo Ha et. al, 2025
意图混淆与隐身规避型越狱:分解重建、双向/双层混淆与毒性诱导
以“更难被识别”为目标:通过意图锚定隐藏、prompt分解与重建、查询-响应双向混淆、语义/分词/干扰项(distractors)与连续序列扰动提升隐蔽性与可迁移成功率;并结合毒性诱导机制在黑盒条件下提升ASR与危害性。相关文献: Yanni Xue et. al, 2025 等 8 篇文献
编码/表示层混淆与加密解码触发型越狱(BitBypass/Lock&Decode)
强调不依赖传统模板提示工程,而是从信息表示/触发机制入手:通过位流/编码层伪装与密码学式混淆+解码触发,在黑盒下绕过安全对齐。相关文献: Kalyan Nakka et. al, 2025 等 2 篇文献
查询-响应联合混淆与游戏化/语义分解越狱(WordGame等)
聚焦“对齐语义解析的扰动方式”:用文字游戏、语义分解与对齐语料覆盖不足来在查询与生成响应两端共同施加掩蔽,从而提高绕过成功率。相关文献: Tianrong Zhang et. al, 2025 等 2 篇文献
多模态与跨模态越狱(VLM/MLLM:视觉扰动、跨模态一致性、跨模态安全边界绕过)
将攻击面从纯文本扩展到VLM/MLLM与跨模态通道:通过视觉扰动、跨模态语义一致性/隐身、以及系统或多模态输入的自对抗与概率建模来提升可迁移性与隐蔽性。相关文献: Renmiao Chen et. al, 2025 等 11 篇文献
系统/管线级越狱与检索增强(Knowledge-to-Action/Agentic)
针对LLM驱动的“检索增强/知识到行动”管线:研究如何诱导检索到有害指令/要点,并进一步利用奖励追逐偏置生成可直接执行的危险内容;攻击发生在检索-生成耦合与行动生成环节。相关文献: Yu Yan et. al, 2026
自动化多轮红队与多步交互式越狱(AutoAdv/MAD-MAX/MDP等)
将攻击提升到长时域决策:通过多步对话迭代、强化学习/MDP建模与代理式跟进来提升成功率与多样性,使攻击适配真实场景中的持续交互与上下文演化。相关文献: Aashray Reddy et. al, 2025 等 4 篇文献
基于搜索与优化的越狱提示发现(GAP/SMJ/剪枝与few-shot改进)
把越狱发现形式化为搜索/优化问题:利用结构共享(图结构)、剪枝降低查询成本,并在语义约束下进行进化或few-shot自适应,以提升发现效率与成功率。相关文献: Daniel Schwartz et. al, 2025 等 3 篇文献
越狱评估与鲁棒性刻画:度量定义、基准数据与潜在越狱(latent jailbreak)
聚焦“如何评估”:定义越狱有效性的量化指标与评估框架,构建带层次标注或潜在恶意嵌入的基准(latent jailbreak),并从推理/对齐差距角度对齐越狱问题以便系统研究鲁棒性。相关文献: Huachuan Qiu et. al, 2023 等 4 篇文献
面向护栏规避的防护绕过与AML/输入注入对抗(Guardrails/检测系统脆弱性)
研究安全护栏与检测模块的可规避性:通过字符/输入注入与算法化对抗(AML)绕过检测,并用词排序/构造等方法评估对ASR与拒答的影响,回答“防护为何失效”。相关文献: William Hackett et. al, 2025
检测与前置防护:拒绝相关损失/梯度特征、通用识别框架与提示变换一致性
以“检测”为核心:利用拒绝相关损失景观与梯度/特征信号识别越狱意图,或提出通用检测框架(如输入变换与输出差异一致性)作为前置防线,而不是直接改模型输出。相关文献: Xiaomeng Hu et. al, 2024 等 3 篇文献
推理占位、对抗情景外推与安全上下文检索(Defender:CoT occupation/ASE/SCR)
防御侧从推理环节介入:通过推理占位(CoT occupation)和对抗情景外推(ASE)降低攻击成功率,并结合安全上下文检索(SCR)提高系统在开放场景下的安全稳健性。相关文献: Xiaokang Li et. al, 2026 等 4 篇文献
通用越狱的守护与提示级固化:Constitutional Classifiers / PAT / SelfDefend
面向“通用/普适(universal)越狱”设计可部署的守护机制:通过合宪式规则生成分类器抵御跨分布攻击;并用提示级固化/对抗调优或影子守护方法在较小开销下增强防护。相关文献: Mrinank Sharma et. al, 2025 等 3 篇文献
机制级对齐移除/参数干预(安全拒绝机制的结构性绕过)
从模型内部安全机制出发:将安全对齐视为可定位的结构/嵌入后门或拒绝机制,通过参数剪枝、后门化理解与结构相似样本隔离等方式实现机制级绕过或移除。相关文献: Torsten Krauß et. al, 2025
内部激活操控与细粒度机制攻击(ActMan)
聚焦中间激活的细粒度操控:通过注意力/隐蔽异常激活穿透检测阶段,并在后期改变风险评估链路以增强潜在危害。相关文献: Haojie Hao et. al, 2026
越狱与安全链/实验流程/数据划分:SafeChain等方法学补充
从实验设计与数据划分流程角度为越狱研究提供方法学支撑:围绕随机抽取、分割设置与WildJailbreak等方向的扩展研究,强调研究可复现与评测公平性。相关文献: Fengqing Jiang et. al, 2025
攻击效率与跨任务评测:低查询成本(ICE)与面向多任务的评测扩展(BiSceneEval)
强调可操作性与评测覆盖:通过单次/低查询成本提升成功率,并构建跨问答与文本生成等任务的扩展评测体系以暴露现有评测对QA场景的盲区。相关文献: Tie Jun Cui et. al, 2025