aigc文本的检测与对抗

综述与可检出性理论:检测技术谱系、评测范式与研究边界

面向AIGC/LLM生成文本检测的整体图景与理论边界:系统综述检测技术谱系(如水印、统计/神经判别、数据集与评测范式),并从可检出性角度讨论影响因素与难点(如人类改写、可识别性上界/下界、OOD与现实误读),同时汇总对抗防御研究脉络。

检测器方法与基准评测:特征/集成/句级与细粒度任务

聚焦“检测器/模型构建与基准评估”的工程与实验路线:通过特征工程(如困惑度、TF-IDF/语言统计、学术写作指标、层级特征融合等)、不同检测范式的集成/多模型联合、句级或细粒度任务定义,以及在竞赛或标准基准上评测准确性与跨域/跨模型泛化。该组强调可用检测器的有效性与可落地评测。

检测可靠性压力测试:真实威胁条件下的评估与误报/漏报分析

从“对抗视角”评估检测系统在真实威胁条件下的脆弱性,并以统一指标衡量可靠性:在递归改写、提示/生成策略、跨数据集/跨模型条件下测试多类检测器的误报/漏报差异,并给出在固定低FPR条件下的TPR等评测目标。

对抗逃逸与鲁棒防御:释义/扰动攻击、对抗评估与防御策略

专注对抗规避与鲁棒防御:以语义保持(释义/扰动)为核心目标绕过检测,研究模型对语义层扰动的脆弱点(如词性偏置/语言结构依赖),并提出对抗训练、注意力/特征层对抗检测等机制;同时覆盖黑盒/受限条件下的对抗样本攻击与防御(如改写通用攻击、攻击无关检测、攻击-修复框架)。该组明确以“逃逸/鲁棒性”为研究主线。

水印与可验证溯源:生成机制信号检测、鲁棒性与水印规避/安全性

专注基于“生成机制信号”的水印与可验证溯源:包括集成/熵感知/深度学习水印、条件水印与可鲁棒验证框架;并研究水印面临的规避攻击与系统副作用(如水印降低对齐、对齐重采样等),同时覆盖从记录token概率以进行第三方溯源的检测工具思路。该组与纯统计判别/对抗评估区分在于:核心证据是可验证的水印或生成机制统计,而非一般性分类特征。

LLM重写/对比与低查询采样检测:DetectGPT与“以LLM为工具”的判别范式

以“LLM重写/对比与低查询采样”为核心的检测范式:让LLM作为工具对候选文本进行重写或生成对照样本,再通过相似度/一致性与概率分布差异进行判别;或采用多次扰动采样与低查询加速/代理推断完成DetectGPT类检测。该组与水印、通用对抗鲁棒性不同,强调检测范式的推理机制与查询预算优化。

现实应用中的误判与治理:写作实践、教育/期刊场景与误报漏报风险

面向真实场景的误判、可靠性与规避性使用影响:讨论检测工具在教育/期刊/写作实践中的局限、误伤风险、以及因“人性化改写/规避使用”导致的偏差;并关注跨平台/跨工具一致性与解释需求。该组属于治理与落地层面的应用评估,而非单纯算法对抗实验。

面向信息失真/幻觉的生成检测与缓解(科学文本场景扩展)

将“检测与对抗”扩展到科学文本的信息失真/幻觉问题:不止判别是否为AIGC,而是检测事实性/真实性偏差(幻觉、信息扭曲)并给出集成信号与后编辑缓解思路。该组的研究目标与AIGC来源溯源区分度较高,作为扩展方向单列。

aigc文本的检测与对抗

合并后形成“综述与可检出性理论—检测器方法与基准评测—检测可靠性压力测试—对抗逃逸与鲁棒防御—水印与可验证溯源—LLM重写/低查询采样检测—现实应用治理—科学文本幻觉检测扩展”八个并列分组。整体研究从方法构建与评测入手,进一步以对抗与可靠性压力测试检验脆弱性;同时以水印提供可验证证据,并发展以LLM为工具的检测范式及低查询加速策略;最后在教育/写作治理与科学文本幻觉缓解等更广应用场景中评估误判与副作用。

93 篇文献,8 个研究方向
综述与可检出性理论:检测技术谱系、评测范式与研究边界
面向AIGC/LLM生成文本检测的整体图景与理论边界:系统综述检测技术谱系(如水印、统计/神经判别、数据集与评测范式),并从可检出性角度讨论影响因素与难点(如人类改写、可识别性上界/下界、OOD与现实误读),同时汇总对抗防御研究脉络。相关文献: Ruixiang Tang et. al, 2023 等 8 篇文献
检测器方法与基准评测:特征/集成/句级与细粒度任务
聚焦“检测器/模型构建与基准评估”的工程与实验路线:通过特征工程(如困惑度、TF-IDF/语言统计、学术写作指标、层级特征融合等)、不同检测范式的集成/多模型联合、句级或细粒度任务定义,以及在竞赛或标准基准上评测准确性与跨域/跨模型泛化。该组强调可用检测器的有效性与可落地评测。相关文献: Ruijin Peng et. al, 2025 等 28 篇文献
检测可靠性压力测试:真实威胁条件下的评估与误报/漏报分析
从“对抗视角”评估检测系统在真实威胁条件下的脆弱性,并以统一指标衡量可靠性:在递归改写、提示/生成策略、跨数据集/跨模型条件下测试多类检测器的误报/漏报差异,并给出在固定低FPR条件下的TPR等评测目标。相关文献: Vinu Sankar Sadasivan et. al, 2023 等 3 篇文献
对抗逃逸与鲁棒防御:释义/扰动攻击、对抗评估与防御策略
专注对抗规避与鲁棒防御:以语义保持(释义/扰动)为核心目标绕过检测,研究模型对语义层扰动的脆弱点(如词性偏置/语言结构依赖),并提出对抗训练、注意力/特征层对抗检测等机制;同时覆盖黑盒/受限条件下的对抗样本攻击与防御(如改写通用攻击、攻击无关检测、攻击-修复框架)。该组明确以“逃逸/鲁棒性”为研究主线。相关文献: Kalpesh Krishna et. al, 2023 等 23 篇文献
水印与可验证溯源:生成机制信号检测、鲁棒性与水印规避/安全性
专注基于“生成机制信号”的水印与可验证溯源:包括集成/熵感知/深度学习水印、条件水印与可鲁棒验证框架;并研究水印面临的规避攻击与系统副作用(如水印降低对齐、对齐重采样等),同时覆盖从记录token概率以进行第三方溯源的检测工具思路。该组与纯统计判别/对抗评估区分在于:核心证据是可验证的水印或生成机制统计,而非一般性分类特征。相关文献: Georg Niess et. al, 2024 等 18 篇文献
LLM重写/对比与低查询采样检测:DetectGPT与“以LLM为工具”的判别范式
以“LLM重写/对比与低查询采样”为核心的检测范式:让LLM作为工具对候选文本进行重写或生成对照样本,再通过相似度/一致性与概率分布差异进行判别;或采用多次扰动采样与低查询加速/代理推断完成DetectGPT类检测。该组与水印、通用对抗鲁棒性不同,强调检测范式的推理机制与查询预算优化。相关文献: Biru Zhu et. al, 2023 等 5 篇文献
现实应用中的误判与治理:写作实践、教育/期刊场景与误报漏报风险
面向真实场景的误判、可靠性与规避性使用影响:讨论检测工具在教育/期刊/写作实践中的局限、误伤风险、以及因“人性化改写/规避使用”导致的偏差;并关注跨平台/跨工具一致性与解释需求。该组属于治理与落地层面的应用评估,而非单纯算法对抗实验。相关文献: Katarzyna Alexander et. al, 2023 等 4 篇文献
面向信息失真/幻觉的生成检测与缓解(科学文本场景扩展)
将“检测与对抗”扩展到科学文本的信息失真/幻觉问题:不止判别是否为AIGC,而是检测事实性/真实性偏差(幻觉、信息扭曲)并给出集成信号与后编辑缓解思路。该组的研究目标与AIGC来源溯源区分度较高,作为扩展方向单列。相关文献: Krishna Chaitanya Marturi et. al, 2025 等 4 篇文献