aigc文本的检测与对抗

合并后形成“综述与可检出性理论—检测器方法与基准评测—检测可靠性压力测试—对抗逃逸与鲁棒防御—水印与可验证溯源—LLM重写/低查询采样检测—现实应用治理—科学文本幻觉检测扩展”八个并列分组。整体研究从方法构建与评测入手，进一步以对抗与可靠性压力测试检验脆弱性；同时以水印提供可验证证据，并发展以LLM为工具的检测范式及低查询加速策略；最后在教育/写作治理与科学文本幻觉缓解等更广应用场景中评估误判与副作用。

共 93 篇文献，8 个研究方向

综述与可检出性理论：检测技术谱系、评测范式与研究边界

面向AIGC/LLM生成文本检测的整体图景与理论边界：系统综述检测技术谱系（如水印、统计/神经判别、数据集与评测范式），并从可检出性角度讨论影响因素与难点（如人类改写、可识别性上界/下界、OOD与现实误读），同时汇总对抗防御研究脉络。相关文献: Ruixiang Tang et. al, 2023 等 8 篇文献

检测器方法与基准评测：特征/集成/句级与细粒度任务

聚焦“检测器/模型构建与基准评估”的工程与实验路线：通过特征工程（如困惑度、TF-IDF/语言统计、学术写作指标、层级特征融合等）、不同检测范式的集成/多模型联合、句级或细粒度任务定义，以及在竞赛或标准基准上评测准确性与跨域/跨模型泛化。该组强调可用检测器的有效性与可落地评测。相关文献: Ruijin Peng et. al, 2025 等 28 篇文献

检测可靠性压力测试：真实威胁条件下的评估与误报/漏报分析

从“对抗视角”评估检测系统在真实威胁条件下的脆弱性，并以统一指标衡量可靠性：在递归改写、提示/生成策略、跨数据集/跨模型条件下测试多类检测器的误报/漏报差异，并给出在固定低FPR条件下的TPR等评测目标。相关文献: Vinu Sankar Sadasivan et. al, 2023 等 3 篇文献

对抗逃逸与鲁棒防御：释义/扰动攻击、对抗评估与防御策略

专注对抗规避与鲁棒防御：以语义保持（释义/扰动）为核心目标绕过检测，研究模型对语义层扰动的脆弱点（如词性偏置/语言结构依赖），并提出对抗训练、注意力/特征层对抗检测等机制；同时覆盖黑盒/受限条件下的对抗样本攻击与防御（如改写通用攻击、攻击无关检测、攻击-修复框架）。该组明确以“逃逸/鲁棒性”为研究主线。相关文献: Kalpesh Krishna et. al, 2023 等 23 篇文献

水印与可验证溯源：生成机制信号检测、鲁棒性与水印规避/安全性

专注基于“生成机制信号”的水印与可验证溯源：包括集成/熵感知/深度学习水印、条件水印与可鲁棒验证框架；并研究水印面临的规避攻击与系统副作用（如水印降低对齐、对齐重采样等），同时覆盖从记录token概率以进行第三方溯源的检测工具思路。该组与纯统计判别/对抗评估区分在于：核心证据是可验证的水印或生成机制统计，而非一般性分类特征。相关文献: Georg Niess et. al, 2024 等 18 篇文献

LLM重写/对比与低查询采样检测：DetectGPT与“以LLM为工具”的判别范式

以“LLM重写/对比与低查询采样”为核心的检测范式：让LLM作为工具对候选文本进行重写或生成对照样本，再通过相似度/一致性与概率分布差异进行判别；或采用多次扰动采样与低查询加速/代理推断完成DetectGPT类检测。该组与水印、通用对抗鲁棒性不同，强调检测范式的推理机制与查询预算优化。相关文献: Biru Zhu et. al, 2023 等 5 篇文献

现实应用中的误判与治理：写作实践、教育/期刊场景与误报漏报风险

面向真实场景的误判、可靠性与规避性使用影响：讨论检测工具在教育/期刊/写作实践中的局限、误伤风险、以及因“人性化改写/规避使用”导致的偏差；并关注跨平台/跨工具一致性与解释需求。该组属于治理与落地层面的应用评估，而非单纯算法对抗实验。相关文献: Katarzyna Alexander et. al, 2023 等 4 篇文献

面向信息失真/幻觉的生成检测与缓解（科学文本场景扩展）

将“检测与对抗”扩展到科学文本的信息失真/幻觉问题：不止判别是否为AIGC，而是检测事实性/真实性偏差（幻觉、信息扭曲）并给出集成信号与后编辑缓解思路。该组的研究目标与AIGC来源溯源区分度较高，作为扩展方向单列。相关文献: Krishna Chaitanya Marturi et. al, 2025 等 4 篇文献

总计95篇相关文献

SeqXGPT: Sentence-Level AI-Generated Text Detection

SeqXGPT：基于句子级别的AI生成文本检测

doi.org-Pengyu Wang, Linyang Li, Ke Ren 等, 2023-Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

Widely applied large language models (LLMs) can generate human-like content, raising concerns about the abuse of LLMs. Therefore, it is important to build strong AI-generated text (AIGT) detectors. Current works only consider document-level AIGT detection, therefore, in this paper, we first introduce a sentence-level detection challenge by synthesizing a dataset that contains documents that are polished with LLMs, that is, the documents contain sentences written by humans and sentences modified by LLMs. Then we propose Sequence X (Check) GPT, a novel method that utilizes log probability lists from white-box LLMs as features for sentence-level AIGT detection. These features are composed like waves in speech processing and cannot be studied by LLMs. Therefore, we build SeqXGPT based on convolution and self-attention networks. We test it in both sentence and document-level detection challenges. Experimental results show that previous methods struggle in solving sentence-level AIGT detection, while our method not only significantly surpasses baseline methods in both sentence and document-level detection challenges but also exhibits strong generalization capabilities.