基于大语言模型的漏洞挖掘和检测

本报告系统性地整合了基于大语言模型（LLM）的漏洞挖掘与检测研究。当前研究已从早期的简单文本分类演进为深度语义与结构化逻辑理解的综合体系。核心趋势包括：1) 融合程序分析与图表征的混合架构成为主流，以弥补LLM在复杂逻辑上的短板；2) 提示工程与多智能体协作显著提升了推理的深度与准确性；3) 应用场景从通用软件扩展至智能合约、工控及硬件等垂直领域；4) 自动化闭环（从检测到修复）与模型自身的对抗鲁棒性成为新的研究热点。总体而言，LLM正引领漏洞分析从规则驱动向智能语义驱动的范式转型。

共 174 篇文献，9 个研究方向

综述、基准测试与实证研究

该组文献对LLM在漏洞检测领域的表现进行了系统性回顾，提出了多个高质量基准数据集（如PyCodeVul、SafeGenBench、SBAN）和评估框架，并深入探讨了数据污染、提示词敏感性及模型在现实场景中的性能边界。相关文献: Xin Zhou et. al, 2024 等 26 篇文献

结构感知、多模态表征与模型微调优化

这组文献探讨了如何通过引入代码结构信息（AST、CFG、CPG）、多模态融合（图像、图表征）以及高效微调技术（LoRA、SFT、RLHF）来增强模型对复杂代码逻辑的底层理解能力。相关文献: Huijuan Zhu et. al, 2023 等 45 篇文献

提示工程、RAG 与多智能体协作推理

该组研究关注如何通过优化交互策略提升LLM的逻辑推理。包括设计代码特定的提示词、引入检索增强生成（RAG）以减少幻觉，以及构建多智能体（Multi-agent）协作流来模拟专家审计过程。相关文献: Ratnadira Widyasari et. al, 2025 等 14 篇文献

LLM 与传统程序分析及模糊测试的混合集成

这组文献关注将LLM的语义推理能力与静态分析（Semgrep、LLVM IR）、动态分析（Fuzzing）、符号执行等传统工具相结合，以降低误报率并提升漏洞挖掘的自动化程度。相关文献: Yanjing Yang et. al, 2024 等 15 篇文献

面向智能合约与 Web3 安全的专项检测

这组论文专门针对区块链智能合约的安全性，利用LLM检测重入攻击、逻辑漏洞等，并结合事件驱动分析、双视图感知及强化学习（DPO）对Web3领域语义进行深度适配。相关文献: Thi-Thu-Huong Le et. al, 2024 等 16 篇文献

特定工业场景与底层硬件漏洞挖掘

该组研究将LLM应用于特定工业或硬件环境，包括云原生IaC配置、工控协议（ICS）、反编译二进制代码以及SoC硬件描述语言（Verilog/RTL）的漏洞发现。相关文献: X. Long et. al, 2025 等 10 篇文献

漏洞自动修复、分类与生命周期管理

这组文献扩展了检测任务，涵盖了漏洞发现后的自动补丁生成（AVR）、CWE/CVE分类、CVSS评分预测、漏洞传播影响分析以及缺陷报告的自动分诊。相关文献: Quanjun Zhang et. al, 2023 等 16 篇文献

LLM 自身的安全性、鲁棒性与对抗攻防

该组研究关注LLM作为安全工具时的脆弱性，包括对抗性攻击（代码混淆、提示注入）、数据投毒、GPU软错误可靠性，以及如何通过对抗训练提升模型自身的防御能力。相关文献: Samuel Simko et. al, 2025 等 17 篇文献

知识增强、持续学习与跨领域基础研究

这组文献探讨了如何通过知识图谱、持续学习、知识蒸馏等手段优化LLM的长期演化能力，并包含了一些探讨Transformer基础架构及跨领域逻辑处理的通用性研究。相关文献: Xuhui Dou et. al, 2026 等 15 篇文献

总计180篇相关文献

Enhancing Smart Contract Vulnerability Detection in DApps Leveraging Fine-Tuned LLM

利用微调大型语言模型增强DApps中智能合约漏洞检测

Jiuyang Bu, Wenkai Li, Zongwei Li 等, 2025-ArXiv

Decentralized applications (DApps) face significant security risks due to vulnerabilities in smart contracts, with traditional detection methods struggling to address emerging and machine-unauditable flaws. This paper proposes a novel approach leveraging fine-tuned Large Language Models (LLMs) to enhance smart contract vulnerability detection. We introduce a comprehensive dataset of 215 real-world DApp projects (4,998 contracts), including hard-to-detect logical errors like token price manipulation, addressing the limitations of existing simplified benchmarks. By fine-tuning LLMs (Llama3-8B and Qwen2-7B) with Full-Parameter Fine-Tuning (FFT) and Low-Rank Adaptation (LoRA), our method achieves superior performance, attaining an F1-score of 0.83 with FFT and data augmentation via Random Over Sampling (ROS). Comparative experiments demonstrate significant improvements over prompt-based LLMs and state-of-the-art tools. Notably, the approach excels in detecting non-machine-auditable vulnerabilities, achieving 0.97 precision and 0.68 recall for price manipulation flaws. The results underscore the effectiveness of domain-specific LLM fine-tuning and data augmentation in addressing real-world DApp security challenges, offering a robust solution for blockchain ecosystem protection.