大型推理模型（LRMs）越狱攻击

越狱攻击的系统性表征、分类与评测/基准框架（DoAnythingNow/JailbreakHub等）

从“越狱是什么、有哪些模式/策略、如何稳定评估与基准化”出发，建立系统性分类与可复现测量框架，并讨论DoAnythingNow类工作对越狱能力表征、成功率与持续性评估的总体方法学贡献。

A Hitchhiker’s Guide to Jailbreaking ChatGPT via Prompt Engineering（Yi Liu, Gelei Deng, Zhengzi Xu, Yuekang Li, Yaowen Zheng, Ying Zhang, Lida Zhao, Tianwei Zhang, Kailong Wang, 2024, Proceedings of the 4th International Workshop on Software Engineering and AI for Data Quality in Cyber-Physical Systems/Internet of Things）
A Review of “Do Anything Now” Jailbreak Attacks in Large Language Models: Potential Risks, Impacts, and Defense Strategies（Wan Chong Choi, Cyril F. Chang, Sze May Ng, Iek Chong Choi, 2025, ResearchGate）
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models（Xinyue Shen, Zeyuan Chen, M. Backes, Yun Shen, Yang Zhang, 2023, Proceedings of the 2024 on ACM SIGSAC Conference on Computer and Communications Security）
Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study（Yi Liu, Gelei Deng, Zhengzi Xu, Yuekang Li, Yaowen Zheng, Ying Zhang, Lida Zhao, Tianwei Zhang, Kailong Wang, Yang Liu, 2023, ArXiv Preprint）
Jailbreaking Large Language Models: Safety Alignment, Response Quality, Computational Cost（Jonas Rosengren, J. Brynielsson, F. Johansson, Patrik Jonell, 2025, 2025 International Conference on Machine Learning and Applications (ICMLA)）
Jailbreak Distillation: Renewable Safety Benchmarking（Jingyu Zhang, Ahmed Elgohary, Xiawei Wang, A S M Iftekhar, Ahmed Magooda, Benjamin Van Durme, Daniel Khashabi, Kyle Jackson, 2025, ArXiv Preprint）

面向LRM推理链的专门化越狱与LRM自主/代理式越狱

聚焦LRM与推理链条的特异漏洞：一方面研究推理模型作为自主攻击代理的自治扩展风险；另一方面提出面向推理链的专门化攻击（如针对其脆弱推理路径）；同时从部署形态角度对比模型级与代理级攻击面差异（agentic loop中的额外漏洞面）。

Large reasoning models are autonomous jailbreak agents（Thilo Hagendorff, Erik Derner, Nuria Oliver, 2025, Nature Communications）
A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos（Yao Yang, Xuan Tong, Ruofan Wang, Yixu Wang, Leya Li, Liang Liu, Yan Teng, Yingchun Wang, 2025, Findings of the Association for Computational Linguistics: ACL 2025）
A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos（Yao Yang, Xuan Tong, Ruofan Wang, Yixu Wang, Leya Li, Liang Liu, Yan Teng, Yingchun Wang, 2025, Findings of the Association for Computational Linguistics: ACL 2025）
Mind the Gap: Comparing Model- vs Agentic-Level Red Teaming with Action-Graph Observability on GPT-OSS-20B（Ilham Wicaksono, Zekun Wu, Rahul Patel, Theo King, Adriano Koshiyama, Philip Treleaven, 2025, ArXiv Preprint）

提示工程/文本推理型越狱：语义翻译、结构化推理诱导与可迁移构造

以文本对话/推理流程为核心攻击面，强调用结构、推理链与语义/形式化变换来生成越狱：包括多轮推理型构造、思维诱导与攻击机理解析、以及通过语义翻译/形式化结构提升可读性与跨场景可迁移性。

Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models（Zonghao Ying, Deyue Zhang, Zonglei Jing, Yisong Xiao, Quanchen Zou, Aishan Liu, Siyuan Liang, Xiangzheng Zhang, Xianglong Liu, Dacheng Tao, 2025, Findings of the Association for Computational Linguistics: EMNLP 2025）
Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks（Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion, 2024, ArXiv Preprint）
IntentObfuscator: A Jailbreaking Method via Confusing LLM with Prompts（Shang Shang, Zhongjiang Yao, Yepeng Yao, Liya Su, Zijing Fan, Xiaodan Zhang, Zhengwei Jiang, 2024, Lecture Notes in Computer Science）
Thoughts Behind Attack: Enhancing Security Against Jailbreak Attacks Using Chain-of-Thought（Zhe Tao, Bing Xu, Muyun Yang, Hongjiao Guan, Wenpeng Lu, Hailong Cao, Conghui Zhu, Tiejun Zhao, 2025, Lecture Notes in Computer Science）
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation（Qizhang Li, Xiaochen Yang, Wangmeng Zuo, Yiwen Guo, 2024, ArXiv Preprint）
DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak（Hao Wang, Hao Li, Jiachen Zhu, Xinyuan Wang, Chengwei Pan, Mingqian Huang, Lei Sha, 2025, Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing）
Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning（Zhaoqi Wang, Daqing He, Zijian Zhang, Xin Li, Liehuang Zhu, Meng Li, Jiamou Liu, 2025, ArXiv Preprint）
Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study（Yi Liu, Gelei Deng, Zhengzi Xu, Yuekang Li, Yaowen Zheng, Ying Zhang, Lida Zhao, Tianwei Zhang, Kailong Wang, Yang Liu, 2023, ArXiv Preprint）

自动化发现与红队/攻击搜索（RL/fuzzing/优化目标度量）

将越狱发现建模为可搜索/可优化的过程：使用RL、fuzzing与基于评分/偏好目标的搜索来生成有效且多样的攻击样本，强调度量定义、探索效率与Pareto最优路径，而非仅依赖手工模板。

Jailbreak-R1: Exploring the Jailbreak Capabilities of LLMs via Reinforcement Learning（Weiyang Guo, Zesheng Shi, Zhuo Li, Yequan Wang, Xuebo Liu, Wenya Wang, Fangming Liu, Min Zhang, Jing Li, 2025, ArXiv Preprint）
Red-Teaming LLMs with Token Control Score: Efficient, Universal, and Transferable Jailbreaks（L. Park, T.-H. Kwon, 2025, 2025 28th International Symposium on Research in Attacks, Intrusions and Defenses (RAID)）
Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs（Chetan Pathade, 2025, ArXiv Preprint）
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts（Jiahao Yu, Xingwei Lin, Zheng Yu, Xinyu Xing, 2023, ArXiv Preprint）
Jailbreak-Zero: A Path to Pareto Optimal Red Teaming for Large Language Models（Kai Hu, Abhinav Aggarwal, Mehran Khodabandeh, David Zhang, Eric Hsin, Li Chen, Ankit Jain, Matt Fredrikson, Akash Bharadwaj, 2025, ArXiv Preprint）

越狱提示生成的可扩展方法：蒸馏型攻击器、进化persona与蒸馏/生成扩散式构造

围绕“规模化生成高质量越狱”的工程路线：通过知识蒸馏压缩攻击知识以降低提示工程/查询成本；并用进化方法自动构造persona prompts以减少拒答率；同时吸收扩散/生成式操控带来的多样性增强。

KDA: A Knowledge-Distilled Attacker for Generating Diverse Prompts to Jailbreak LLMs（Buyun Liang, Kwan Ho Ryan Chan, Darshan Thaker, Jinqi Luo, René Vidal, 2025, ArXiv Preprint）
Enhancing Jailbreak Attacks on LLMs via Persona Prompts（Zheng Zhang, Peilin Zhao, Deheng Ye, Hao Wang, 2025, ArXiv Preprint）
DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak（Hao Wang, Hao Li, Jiachen Zhu, Xinyuan Wang, Chengwei Pan, Mingqian Huang, Lei Sha, 2025, Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing）

多轮到单轮与上下文盲区利用：对抗提示重写/结构枚举式嵌入

研究在交互成本约束下维持攻击强度：将多轮越狱压缩为单轮，利用结构化/枚举式/代码式嵌入去触发模型的上下文盲区，从而降低人力与对话轮数依赖。

M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs（Junwoo Ha, Hyunjun Kim, Sangyoon Yu, Haon Park, Ashkan Yousefpour, Yuna Park, Suhyun Kim, 2025, ArXiv Preprint）

意图混淆与隐身规避型越狱：分解重建、双向/双层混淆与毒性诱导

以“更难被识别”为目标：通过意图锚定隐藏、prompt分解与重建、查询-响应双向混淆、语义/分词/干扰项（distractors）与连续序列扰动提升隐蔽性与可迁移成功率；并结合毒性诱导机制在黑盒条件下提升ASR与危害性。

Dual Intention Escape: Penetrating and Toxic Jailbreak Attack against Large Language Models（Yanni Xue, Jiakai Wang, Zixin Yin, Yuqing Ma, Haotong Qin, Renshuai Tao, Xianglong Liu, 2025, Proceedings of the ACM on Web Conference 2025）
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers（Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh, 2024, ArXiv Preprint）
WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response（Tianrong Zhang, Bochuan Cao, Yuanpu Cao, Lu Lin, Prasenjit Mitra, Jinghui Chen, 2024, ArXiv Preprint）
Mitigating adversarial manipulation in LLMs: a prompt-based approach to counter Jailbreak attacks (Prompt-G)（Bhagyajit Pingua, Deepak Murmu, Meenakshi Kandpal, Jyotirmayee Rautaray, Pranati Mishra, R. Barik, Manob Saikia, 2024, PeerJ Computer Science）
Chinese semantic obfuscation blackbox jailbreak for domestic large models（Xinxin Yue, Zhiyong Zhang, Junchang Jing, Weiguo Wang, Simin Tang, Mengdan Xue, 2026, Cybersecurity）
Distractor-Based Jailbreaking Attacks in Language Models and Associated Changes in Chain-of-Thought Content (Student Abstract)（T. Rowney, X. Ying, 2026, Proceedings of the AAAI Conference on Artificial Intelligence）
SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains（Bijoy Ahmed Saiem, MD Sadik Hossain Shanto, Rakib Ahsan, Md. Rafi Ur Rashid, 2025, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)）
WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response（Tianrong Zhang, Bochuan Cao, Yuanpu Cao, Lin Lu, Prasenjit Mitra, Jinghui Chen, 2025, Findings of the Association for Computational Linguistics: NAACL 2025）

编码/表示层混淆与加密解码触发型越狱（BitBypass/Lock&Decode）

强调不依赖传统模板提示工程，而是从信息表示/触发机制入手：通过位流/编码层伪装与密码学式混淆+解码触发，在黑盒下绕过安全对齐。

BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage（Kalyan Nakka, Nitesh Saxena, 2025, ArXiv Preprint）
Lock and Decode: Obfuscated Prompt Cryptography as a Mechanism for Circumventing Large Language Model Security Paradigms（Suhaas Yadavalli, Arpitha Shivaswaroopa, Mehul S. Raval, Anshul Bhowmik, A.R. Rizwana Shaikh, Megha P. Arakeri, 2025, SSRN Electronic Journal）

查询-响应联合混淆与游戏化/语义分解越狱（WordGame等）

聚焦“对齐语义解析的扰动方式”：用文字游戏、语义分解与对齐语料覆盖不足来在查询与生成响应两端共同施加掩蔽，从而提高绕过成功率。

WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response（Tianrong Zhang, Bochuan Cao, Yuanpu Cao, Lin Lu, Prasenjit Mitra, Jinghui Chen, 2025, Findings of the Association for Computational Linguistics: NAACL 2025）
WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response（Tianrong Zhang, Bochuan Cao, Yuanpu Cao, Lu Lin, Prasenjit Mitra, Jinghui Chen, 2024, ArXiv Preprint）

多模态与跨模态越狱（VLM/MLLM：视觉扰动、跨模态一致性、跨模态安全边界绕过）

将攻击面从纯文本扩展到VLM/MLLM与跨模态通道：通过视觉扰动、跨模态语义一致性/隐身、以及系统或多模态输入的自对抗与概率建模来提升可迁移性与隐蔽性。

JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering（Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang, 2025, Proceedings of the 33rd ACM International Conference on Multimedia）
Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models（Lei Jiang, Zixun Zhang, Zizhou Wang, Xiaobing Sun, Zhen Li, Liangli Zhen, Xiaohua Xu, 2025, ArXiv Preprint）
Efficient LLM-Jailbreaking via Multimodal-LLM Jailbreak（Haoxuan Ji, Zheng Lin, Zhenxing Niu, Xinbo Gao, Gang Hua, 2024, Proceedings of the AAAI Conference on Artificial Intelligence）
Jailbreaking Multimodal Large Language Models via Consistent Cross-Modal Backgrounds（Meng Yang, Peirou Liang, Zhiqian Wu, Yong Liao, 2025, 2025 IEEE 24th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom)）
Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs（Xiang Li, Chong Zhang, Jia Wang, Fangyu Wu, Yushi Li, Xiaobo Jin, 2025, ArXiv Preprint）
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts（Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun, 2023, ArXiv Preprint）
Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts（Yi Liu, Chengjun Cai, Xiaoli Zhang, Xingliang Yuan, Cong Wang, 2024, Proceedings of the 32nd ACM International Conference on Multimedia）
Low-Effort Jailbreak Attacks Against Text-to-Image Safety Filters（Ahmed B Mustafa, Zihan Ye, Yang Lu, Michael P Pound, Shreyank N Gowda, 2026, ArXiv Preprint）
Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning（Chenyu Zhang, Lanjun Wang, Yiwen Ma, Wenhui Li, Guoqing Jin, An-An Liu, 2025, Proceedings of the AAAI Conference on Artificial Intelligence）
Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs（Mingyu Yu, Lana Liu, Zhehao Zhao, Wei Wang, Sujuan Qin, 2026, ArXiv Preprint）
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?（Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu, 2024, ArXiv Preprint）

系统/管线级越狱与检索增强（Knowledge-to-Action/Agentic）

针对LLM驱动的“检索增强/知识到行动”管线：研究如何诱导检索到有害指令/要点，并进一步利用奖励追逐偏置生成可直接执行的危险内容；攻击发生在检索-生成耦合与行动生成环节。

SearchAttack: Red-Teaming LLMs against Knowledge-to-Action Threats under Online Web Search（Yu Yan, Sheng Sun, Mingfeng Li, Zheming Yang, Chiwei Zhu, Fei Ma, Benfeng Xu, Min Liu, Qi Li, 2026, ArXiv Preprint）

自动化多轮红队与多步交互式越狱（AutoAdv/MAD-MAX/MDP等）

将攻击提升到长时域决策：通过多步对话迭代、强化学习/MDP建模与代理式跟进来提升成功率与多样性，使攻击适配真实场景中的持续交互与上下文演化。

AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models（Aashray Reddy, Andrew Zagula, Nicholas Saban, 2025, ArXiv Preprint）
MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming（Stefan Schoepf, Muhammad Zaid Hameed, Ambrish Rawat, Kieran Fraser, Giulio Zizzo, Giandomenico Cornacchia, Mark Purcell, 2025, ArXiv Preprint）
Automatic LLM Red Teaming（Roman Belaire, Arunesh Sinha, Pradeep Varakantham, 2025, ArXiv Preprint）
RedAgent: an Autonomous Agent for Context-aware Red Teaming of LLM Jailbreaks（Huiyu Xu, Wenhui Zhang, Zhibo Wang, Feng Xiao, Rui Zheng, Zhongjie Ba, Kui Ren, 2026, IEEE Transactions on Dependable and Secure Computing）

基于搜索与优化的越狱提示发现（GAP/SMJ/剪枝与few-shot改进）

把越狱发现形式化为搜索/优化问题：利用结构共享（图结构）、剪枝降低查询成本，并在语义约束下进行进化或few-shot自适应，以提升发现效率与成功率。

Graph of Attacks with Pruning: Optimizing Stealthy Jailbreak Prompt Generation for Enhanced LLM Content Moderation（Daniel Schwartz, Dmitriy Bespalov, Zhe Wang, Ninad Kulkarni, Yanjun Qi, 2025, ArXiv Preprint）
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs（Xiaoxia Li, Siyuan Liang, Jiyi Zhang, Han Fang, Aishan Liu, Ee-Chien Chang, 2024, ArXiv Preprint）
Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses（Chao Du, Jing Jiang, Min‐Hsuan Lin, Qian Liu, Tianyu Pang, Xiaosen Zheng, 2024, Advances in Neural Information Processing Systems 37）

越狱评估与鲁棒性刻画：度量定义、基准数据与潜在越狱（latent jailbreak）

聚焦“如何评估”：定义越狱有效性的量化指标与评估框架，构建带层次标注或潜在恶意嵌入的基准（latent jailbreak），并从推理/对齐差距角度对齐越狱问题以便系统研究鲁棒性。

Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models（Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan, 2023, ArXiv Preprint）
Jailbreaks as Inference-Time Alignment: A Framework for Understanding Safety Failures in LLMs（James Beetham, Souradip Chakraborty, Mengdi Wang, Furong Huang, A. S. Bedi, Mubarak Shah, 2026, Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)）
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?（Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu, 2024, ArXiv Preprint）
JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering（Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang, 2025, Proceedings of the 33rd ACM International Conference on Multimedia）

面向护栏规避的防护绕过与AML/输入注入对抗（Guardrails/检测系统脆弱性）

研究安全护栏与检测模块的可规避性：通过字符/输入注入与算法化对抗（AML）绕过检测，并用词排序/构造等方法评估对ASR与拒答的影响，回答“防护为何失效”。

Bypassing LLM Guardrails: An Empirical Analysis of Evasion Attacks against Prompt Injection and Jailbreak Detection Systems（William Hackett, Lewis Birch, Stefan Trawicki, Neeraj Suri, Peter Garraghan, 2025, ArXiv Preprint）

检测与前置防护：拒绝相关损失/梯度特征、通用识别框架与提示变换一致性

以“检测”为核心：利用拒绝相关损失景观与梯度/特征信号识别越狱意图，或提出通用检测框架（如输入变换与输出差异一致性）作为前置防线，而不是直接改模型输出。

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes（Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho, 2024, ArXiv Preprint）
JailGuard: A Universal Detection Framework for Prompt-based Attacks on LLM Systems（Xiaoyu Zhang, Cen Zhang, Tianlin Li, Yihao Huang, Xiaojun Jia, Ming Hu, Jie Zhang, Yang Liu, Shiqing Ma, Chao Shen, 2025, ACM Transactions on Software Engineering and Methodology）
Prompt-Based Jailbreaking of Leading LLM Chatbots: A Survey of Attacks and Defenses（Brynn Knowlton, Jovani Campa, Davide Gallo, Khalil Dajani, Nabeel Alzahrani, 2026, IEEE Transactions on Artificial Intelligence）

推理占位、对抗情景外推与安全上下文检索（Defender：CoT occupation/ASE/SCR）

防御侧从推理环节介入：通过推理占位（CoT occupation）和对抗情景外推（ASE）降低攻击成功率，并结合安全上下文检索（SCR）提高系统在开放场景下的安全稳健性。

CoT defender: Preemptive chain-of-thought occupation for jailbreak attack mitigation（Xiaokang Li, Jin Liu, Yongqiang Tang, Zhiwen Xie, Yihe Wang, Xiao Yu, Long Zhao, Bo Huang, 2026, Neural Networks）
Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval（Taiye Chen, Zeming Wei, Ang Li, Yisen Wang, 2025, ArXiv Preprint）
Chain-of-Thought Driven Adversarial Scenario Extrapolation for Robust Language Models（Md. Rafi Ur Rashid, Vishnu Asutosh Dasu, Ye Wang, Gang Tan, Shagufta Mehnaz, 2025, Proceedings of the AAAI Conference on Artificial Intelligence）
Defending Large Language Models Against Jailbreak Attacks Through Chain of Thought Prompting（Yanfei Cao, Naijie Gu, Xinyue Shen, Daiyuan Yang, Xingmin Zhang, 2024, 2024 International Conference on Networking and Network Applications (NaNA)）

通用越狱的守护与提示级固化：Constitutional Classifiers / PAT / SelfDefend

面向“通用/普适（universal）越狱”设计可部署的守护机制：通过合宪式规则生成分类器抵御跨分布攻击；并用提示级固化/对抗调优或影子守护方法在较小开销下增强防护。

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming（Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez, 2025, ArXiv Preprint）
Fight Back Against Jailbreaking via Prompt Adversarial Tuning（Yichuan Mo, Yuji Wang, Zeming Wei, Yisen Wang, 2024, Advances in Neural Information Processing Systems 37）
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner（Xunguang Wang, Daoyuan Wu, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Shuai Wang, Yingjiu Li, Yang Liu, Ning Liu, Juergen Rahmel, 2024, ArXiv Preprint）

机制级对齐移除/参数干预（安全拒绝机制的结构性绕过）

从模型内部安全机制出发：将安全对齐视为可定位的结构/嵌入后门或拒绝机制，通过参数剪枝、后门化理解与结构相似样本隔离等方式实现机制级绕过或移除。

TwinBreak: Jailbreaking LLM Security Alignments based on Twin Prompts（Torsten Krauß, Hamid Dashtbani, Alexandra Dmitrienko, 2025, ArXiv Preprint）

内部激活操控与细粒度机制攻击（ActMan）

聚焦中间激活的细粒度操控：通过注意力/隐蔽异常激活穿透检测阶段，并在后期改变风险评估链路以增强潜在危害。

Activation Manipulation Attack: Penetrating and Harmful Jailbreak Attack Against Large Vision-Language Models（Haojie Hao, Jiakai Wang, Aishan Liu, Yuqing Ma, Haotong Qin, Yuanfang Guo, Xianglong Liu, 2026, Proceedings of the AAAI Conference on Artificial Intelligence）

越狱与安全链/实验流程/数据划分：SafeChain等方法学补充

从实验设计与数据划分流程角度为越狱研究提供方法学支撑：围绕随机抽取、分割设置与WildJailbreak等方向的扩展研究，强调研究可复现与评测公平性。

SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities（Fengqing Jiang, Zhangchen Xu, Yuetai Li, Luyao Niu, Zhen Xiang, Bo Li, Bill Yuchen Lin, Radha Poovendran, 2025, Findings of the Association for Computational Linguistics: ACL 2025）

攻击效率与跨任务评测：低查询成本（ICE）与面向多任务的评测扩展（BiSceneEval）

强调可操作性与评测覆盖：通过单次/低查询成本提升成功率，并构建跨问答与文本生成等任务的扩展评测体系以暴露现有评测对QA场景的盲区。

Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion（Tie Jun Cui, Youdong Mao, Peipei Liu, Congying Liu, Datao You, 2025, Findings of the Association for Computational Linguistics: ACL 2025）

大型推理模型（LRMs）越狱攻击

合并后，文献主要覆盖八类并列方向：①越狱的系统性表征/分类与评测基准；②LRM推理链与自主代理式越狱；③文本推理型越狱的构造与可迁移生成；④自动化红队/攻击搜索与优化；⑤多模态与检索增强/系统管线（knowledge-to-action）带来的额外攻击面；⑥隐身规避型（混淆、分解重建、双层混淆、编码加密触发）攻击；⑦检测与防御（检测框架、推理占位/对抗情景外推/安全检索、提示级固化与通用守护）；⑧机制级干预（激活操控、参数/对齐机制移除）与实验流程方法学。整体体现LRMs越狱研究从“提示层模板”走向“推理链/管线/机制级”并同步强化“可搜索发现 + 可复现评测 + 可部署防御”的闭环。

共 77 篇文献，22 个研究方向

越狱攻击的系统性表征、分类与评测/基准框架（DoAnythingNow/JailbreakHub等）

从“越狱是什么、有哪些模式/策略、如何稳定评估与基准化”出发，建立系统性分类与可复现测量框架，并讨论DoAnythingNow类工作对越狱能力表征、成功率与持续性评估的总体方法学贡献。相关文献: Yi Liu et. al, 2024 等 6 篇文献

面向LRM推理链的专门化越狱与LRM自主/代理式越狱

聚焦LRM与推理链条的特异漏洞：一方面研究推理模型作为自主攻击代理的自治扩展风险；另一方面提出面向推理链的专门化攻击（如针对其脆弱推理路径）；同时从部署形态角度对比模型级与代理级攻击面差异（agentic loop中的额外漏洞面）。相关文献: Thilo Hagendorff et. al, 2025 等 4 篇文献

提示工程/文本推理型越狱：语义翻译、结构化推理诱导与可迁移构造

以文本对话/推理流程为核心攻击面，强调用结构、推理链与语义/形式化变换来生成越狱：包括多轮推理型构造、思维诱导与攻击机理解析、以及通过语义翻译/形式化结构提升可读性与跨场景可迁移性。相关文献: Zonghao Ying et. al, 2025 等 8 篇文献

自动化发现与红队/攻击搜索（RL/fuzzing/优化目标度量）

将越狱发现建模为可搜索/可优化的过程：使用RL、fuzzing与基于评分/偏好目标的搜索来生成有效且多样的攻击样本，强调度量定义、探索效率与Pareto最优路径，而非仅依赖手工模板。相关文献: Weiyang Guo et. al, 2025 等 5 篇文献

越狱提示生成的可扩展方法：蒸馏型攻击器、进化persona与蒸馏/生成扩散式构造

围绕“规模化生成高质量越狱”的工程路线：通过知识蒸馏压缩攻击知识以降低提示工程/查询成本；并用进化方法自动构造persona prompts以减少拒答率；同时吸收扩散/生成式操控带来的多样性增强。相关文献: Buyun Liang et. al, 2025 等 3 篇文献

多轮到单轮与上下文盲区利用：对抗提示重写/结构枚举式嵌入

研究在交互成本约束下维持攻击强度：将多轮越狱压缩为单轮，利用结构化/枚举式/代码式嵌入去触发模型的上下文盲区，从而降低人力与对话轮数依赖。相关文献: Junwoo Ha et. al, 2025

意图混淆与隐身规避型越狱：分解重建、双向/双层混淆与毒性诱导

以“更难被识别”为目标：通过意图锚定隐藏、prompt分解与重建、查询-响应双向混淆、语义/分词/干扰项（distractors）与连续序列扰动提升隐蔽性与可迁移成功率；并结合毒性诱导机制在黑盒条件下提升ASR与危害性。相关文献: Yanni Xue et. al, 2025 等 8 篇文献

编码/表示层混淆与加密解码触发型越狱（BitBypass/Lock&Decode）

强调不依赖传统模板提示工程，而是从信息表示/触发机制入手：通过位流/编码层伪装与密码学式混淆+解码触发，在黑盒下绕过安全对齐。相关文献: Kalyan Nakka et. al, 2025 等 2 篇文献

查询-响应联合混淆与游戏化/语义分解越狱（WordGame等）

聚焦“对齐语义解析的扰动方式”：用文字游戏、语义分解与对齐语料覆盖不足来在查询与生成响应两端共同施加掩蔽，从而提高绕过成功率。相关文献: Tianrong Zhang et. al, 2025 等 2 篇文献

多模态与跨模态越狱（VLM/MLLM：视觉扰动、跨模态一致性、跨模态安全边界绕过）

将攻击面从纯文本扩展到VLM/MLLM与跨模态通道：通过视觉扰动、跨模态语义一致性/隐身、以及系统或多模态输入的自对抗与概率建模来提升可迁移性与隐蔽性。相关文献: Renmiao Chen et. al, 2025 等 11 篇文献

系统/管线级越狱与检索增强（Knowledge-to-Action/Agentic）

针对LLM驱动的“检索增强/知识到行动”管线：研究如何诱导检索到有害指令/要点，并进一步利用奖励追逐偏置生成可直接执行的危险内容；攻击发生在检索-生成耦合与行动生成环节。相关文献: Yu Yan et. al, 2026

自动化多轮红队与多步交互式越狱（AutoAdv/MAD-MAX/MDP等）

将攻击提升到长时域决策：通过多步对话迭代、强化学习/MDP建模与代理式跟进来提升成功率与多样性，使攻击适配真实场景中的持续交互与上下文演化。相关文献: Aashray Reddy et. al, 2025 等 4 篇文献

基于搜索与优化的越狱提示发现（GAP/SMJ/剪枝与few-shot改进）

把越狱发现形式化为搜索/优化问题：利用结构共享（图结构）、剪枝降低查询成本，并在语义约束下进行进化或few-shot自适应，以提升发现效率与成功率。相关文献: Daniel Schwartz et. al, 2025 等 3 篇文献

越狱评估与鲁棒性刻画：度量定义、基准数据与潜在越狱（latent jailbreak）

聚焦“如何评估”：定义越狱有效性的量化指标与评估框架，构建带层次标注或潜在恶意嵌入的基准（latent jailbreak），并从推理/对齐差距角度对齐越狱问题以便系统研究鲁棒性。相关文献: Huachuan Qiu et. al, 2023 等 4 篇文献

面向护栏规避的防护绕过与AML/输入注入对抗（Guardrails/检测系统脆弱性）

研究安全护栏与检测模块的可规避性：通过字符/输入注入与算法化对抗（AML）绕过检测，并用词排序/构造等方法评估对ASR与拒答的影响，回答“防护为何失效”。相关文献: William Hackett et. al, 2025

检测与前置防护：拒绝相关损失/梯度特征、通用识别框架与提示变换一致性

以“检测”为核心：利用拒绝相关损失景观与梯度/特征信号识别越狱意图，或提出通用检测框架（如输入变换与输出差异一致性）作为前置防线，而不是直接改模型输出。相关文献: Xiaomeng Hu et. al, 2024 等 3 篇文献

推理占位、对抗情景外推与安全上下文检索（Defender：CoT occupation/ASE/SCR）

防御侧从推理环节介入：通过推理占位（CoT occupation）和对抗情景外推（ASE）降低攻击成功率，并结合安全上下文检索（SCR）提高系统在开放场景下的安全稳健性。相关文献: Xiaokang Li et. al, 2026 等 4 篇文献

通用越狱的守护与提示级固化：Constitutional Classifiers / PAT / SelfDefend

面向“通用/普适（universal）越狱”设计可部署的守护机制：通过合宪式规则生成分类器抵御跨分布攻击；并用提示级固化/对抗调优或影子守护方法在较小开销下增强防护。相关文献: Mrinank Sharma et. al, 2025 等 3 篇文献

机制级对齐移除/参数干预（安全拒绝机制的结构性绕过）

从模型内部安全机制出发：将安全对齐视为可定位的结构/嵌入后门或拒绝机制，通过参数剪枝、后门化理解与结构相似样本隔离等方式实现机制级绕过或移除。相关文献: Torsten Krauß et. al, 2025

内部激活操控与细粒度机制攻击（ActMan）

聚焦中间激活的细粒度操控：通过注意力/隐蔽异常激活穿透检测阶段，并在后期改变风险评估链路以增强潜在危害。相关文献: Haojie Hao et. al, 2026

越狱与安全链/实验流程/数据划分：SafeChain等方法学补充

从实验设计与数据划分流程角度为越狱研究提供方法学支撑：围绕随机抽取、分割设置与WildJailbreak等方向的扩展研究，强调研究可复现与评测公平性。相关文献: Fengqing Jiang et. al, 2025

攻击效率与跨任务评测：低查询成本（ICE）与面向多任务的评测扩展（BiSceneEval）

强调可操作性与评测覆盖：通过单次/低查询成本提升成功率，并构建跨问答与文本生成等任务的扩展评测体系以暴露现有评测对QA场景的盲区。相关文献: Tie Jun Cui et. al, 2025

总计112篇相关文献

DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak

DiffusionAttacker：基于扩散模型的LLM越狱驱动提示操纵

doi.org-Hao Wang, Hao Li, Jiachen Zhu 等, 2025-Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing

Large Language Models (LLMs) are susceptible to generating harmful content when prompted with carefully crafted inputs, a vulnerability known as LLM jailbreaking.As LLMs become more powerful, studying jailbreak methods is critical to enhancing security and aligning models with human values.Traditionally, jailbreak techniques have relied on suffix addition or prompt templates, but these methods suffer from limited attack diversity.This paper introduces DiffusionAttacker, an end-to-end generative approach for jailbreak rewriting inspired by diffusion models.Our method employs a sequence-to-sequence (seq2seq) text diffusion model as a generator, conditioning on the original prompt and guiding the denoising process with a novel attack loss.Unlike previous approaches that use autoregressive LLMs to generate jailbreak prompts, which limit the modification of already generated tokens and restrict the rewriting space, DiffusionAttacker utilizes a seq2seq diffusion model, allowing more flexible token modifications.This approach preserves the semantic content of the original prompt while producing harmful content.Additionally, we leverage the Gumbel-Softmax technique to make the sampling process from the diffusion model's output distribution differentiable, eliminating the need for iterative token search.Extensive experiments on Advbench and Harmbench demonstrate that DiffusionAttacker outperforms previous methods across various evaluation metrics, including attack success rate (ASR), fluency, and diversity.