分类与识别定位方法

目标检测方法体系与任务综述/基准(YOLO演进、实时/半监督/旋转检测)

以综述/范式梳理为主的体系化工作,覆盖两阶段与一阶段检测框架、YOLO演进脉络、实时检测研究现状、半监督检测与旋转检测等任务方向;同时包含对目标检测与定位方法的系统综述、基准评测与领域外推研究,用于建立分类与识别定位方法的整体知识地图。

开放词汇与开放世界:类别无关掩码的实例识别/跟踪

聚焦开放词汇/开放世界的视频实例分割:采用类无关mask提议与实例token/CLIP引导的关联与分类机制,实现训练外类别的视频实例识别与跟踪,与封闭类别检测器的“框+类别”范式不同。

3D检测与几何表征/编码:用几何约束提升定位稳定性

共同强调3D/空间几何约束下的定位稳定性:通过边界框参数化与编码方式调整、利用多模态语义与物理/几何先验提升2D-3D对齐,或在多视角雷达空间中引入几何约束扩散/关联来增强空间定位鲁棒性。

几何建模与边界/框回归增强(条带/定向/边界引导与IoU类损失)

围绕“框回归与几何建模”的关键链路:针对条带/定向或细长目标等几何形态,使用各向异性/条带卷积与适应性框尺度;通过边界引导或IoU类回归改造提升收敛与定位精度,强调回归建模而非仅网络堆叠。

旋转目标(姿态)分类与定位:空间对齐与旋转损失/表示

专注旋转/任意姿态目标的分类与定位:通过空间变换网络或专门的旋转检测框表示与各向异性建模,解决不同角度下的特征对齐与回归困难,并系统讨论旋转检测问题与损失/表示改进思路。

小目标与尺度自适应检测/定位(多尺度融合、zoom-in与动态检测头)

面向难条件中的“尺度自适应/小目标/多尺度定位”问题:通过zoom-in、自适应上采样、多尺度特征融合与改进检测头提升小目标召回;同时在复杂场景验证并结合轻量化与注意力/聚合策略,以在不同尺度与资源约束下保持定位精度。

实时与可部署识别定位:端到端多任务/实例分割与流式延迟

以YOLO/一阶段检测与工程端到端管线为主线,强调实时性与可部署性:包含轻量化、注意力/动态模块、边缘/车载/无人机等端侧推理;同时覆盖实时多任务、实例分割融合、流式延迟补偿与端到端系统集成。该组体现“检测定位方法→可运行系统”的落地导向。

资源受限与边缘部署:能效/压缩/联邦学习驱动的实时检测

以资源受限与部署能效为共同约束:通过轻量架构、端侧/FPGA等实现与精度-延迟-算力权衡;并将联邦学习/自蒸馏等机制纳入实时检测框架,以提升隐私与持续适配能力。该组聚焦“效率与部署”作为主目标。

少样本、域泛化与增量/持续学习适配(few-shot / domain gap / continual)

共同面向少样本、域泛化与持续学习:通过高效微调(LoRA等)、域差异处理与原型/3D推理泛化策略,或用自蒸馏/重放缓解灾难性遗忘,从而提高在数据不足或分布变化条件下的识别定位可靠性。

数据合成与提示驱动的定位/分割(合成标注与自动prompt)

通过“数据合成与提示驱动”改善定位与类别识别:用对象中心与几何/相机配置生成可扩展的标注用于训练;在SAM体系下自动生成更精确的提示并注入知识以提升核实例分割与定位精度。

时空与跨域表征增强:多尺度、注意力、全局上下文与特征融合

聚焦表征层增强带来的效果提升:通过多尺度特征聚合、全局上下文建模、注意力与跨视角关联,把“定位/分类”的关键困难(小目标、密集目标、低可见、跨域)转化为表征与融合能力问题。

生成式检测:边界框预测的条件生成范式

把目标检测重定义为生成式任务:将边界框回归转为条件生成(直接生成带类别/框的输出),体现范式从判别式检测器向可控生成式检测迁移。

    领域/应用定制的检测定位:医疗、安检、交互与行业质检

    面向医疗、安检、交互与行业质检等特定场景的任务定制:强调针对领域数据与偏移的检测器改造、骨干/注意力/Transformer或Mamba类结构替换,以及与具体应用目标(早诊、非法物体、手势/交互、岩心/缺陷识别等)的对齐。

    Faster R-CNN及其改造:医疗/工程/农业识别与时序增强

    以Faster R-CNN及其改造为核心:包括在医疗/农业/工程识别中的实践,骨干替换(Swin等)、时序上下文(Bi-LSTM)、以及与数据增强策略结合来改善复杂背景与小目标/噪声场景的识别定位效果。

    多模态/语言/VLM与输入增强:超分辨率、扩散合成与跨模态融合

    以多模态与语言/合成输入增强为主:使用超分辨率与可控扩散合成增强低质量/遥感场景;通过投票或CNN融合实现多源信息互补,并引入VLM/LVLM实现语言条件推理与跨模态目标理解,从而提升类别识别与定位泛化。

    实例级任务:检测-分割联合与多边形/统一实例表征

    专注实例级表征:将检测扩展为实例分割(统一架构、mask head、金字塔特征等),并探索用多边形顶点/统一实例表征替代像素级mask以降低计算负担,同时覆盖分割与检测的协同定位。

    定位输出形式扩展:分类-回归、单目3D检测与关键点定位

    将定位输出形式从“类别+框”扩展到更广的回归/3D/关键点表征:包括分类-回归的连续属性预测、单目3D目标检测与3D关键点(点位本地化)定位,体现任务建模层面的扩展。

    (单篇补充)实时轻量化目标检测代表(GMS-YOLO)

    该文献在初始化分组中属于实时轻量化落地方向,但在合并后同时覆盖了实时/端到端与轻量化部署的主线。为避免跨组交叉,保留其作为实时轻量化代表以支撑该方向证据链。

    分类与识别定位方法

    合并后的统一分组将“分类与识别定位方法”按关键研究主线并列拆分为:方法体系综述/基准;开放词汇视频实例分割;3D几何与编码约束;旋转目标定位表征;小目标与尺度自适应;几何建模与边界/框回归增强;实时与可部署的端到端多任务/实例分割与流式延迟;资源受限下的能效/压缩/联邦学习;少样本、域泛化与持续学习适配;数据合成与提示驱动;表征层的时空跨域增强;生成式检测范式;领域应用定制;Faster R-CNN改造;多模态/语言输入增强;实例级表征(检测-分割联合与多边形);以及定位输出形式扩展到分类-回归、单目3D与关键点定位。整体上反映该领域从传统检测器迭代,逐步走向更强几何建模、尺度/上下文增强、端侧实时部署与开放/多模态/生成式范式融合。

    151 篇文献,18 个研究方向
    目标检测方法体系与任务综述/基准(YOLO演进、实时/半监督/旋转检测)
    以综述/范式梳理为主的体系化工作,覆盖两阶段与一阶段检测框架、YOLO演进脉络、实时检测研究现状、半监督检测与旋转检测等任务方向;同时包含对目标检测与定位方法的系统综述、基准评测与领域外推研究,用于建立分类与识别定位方法的整体知识地图。相关文献: Sara A. Mohammed et. al, 2025 等 17 篇文献
    开放词汇与开放世界:类别无关掩码的实例识别/跟踪
    聚焦开放词汇/开放世界的视频实例分割:采用类无关mask提议与实例token/CLIP引导的关联与分类机制,实现训练外类别的视频实例识别与跟踪,与封闭类别检测器的“框+类别”范式不同。相关文献: Pinxue Guo et. al, 2025
    3D检测与几何表征/编码:用几何约束提升定位稳定性
    共同强调3D/空间几何约束下的定位稳定性:通过边界框参数化与编码方式调整、利用多模态语义与物理/几何先验提升2D-3D对齐,或在多视角雷达空间中引入几何约束扩散/关联来增强空间定位鲁棒性。相关文献: Qinghao Meng et. al, 2025 等 4 篇文献
    几何建模与边界/框回归增强(条带/定向/边界引导与IoU类损失)
    围绕“框回归与几何建模”的关键链路:针对条带/定向或细长目标等几何形态,使用各向异性/条带卷积与适应性框尺度;通过边界引导或IoU类回归改造提升收敛与定位精度,强调回归建模而非仅网络堆叠。相关文献: Xinbin Yuan et. al, 2026 等 5 篇文献
    旋转目标(姿态)分类与定位:空间对齐与旋转损失/表示
    专注旋转/任意姿态目标的分类与定位:通过空间变换网络或专门的旋转检测框表示与各向异性建模,解决不同角度下的特征对齐与回归困难,并系统讨论旋转检测问题与损失/表示改进思路。相关文献: G. Rajendran et. al, 2025 等 3 篇文献
    小目标与尺度自适应检测/定位(多尺度融合、zoom-in与动态检测头)
    面向难条件中的“尺度自适应/小目标/多尺度定位”问题:通过zoom-in、自适应上采样、多尺度特征融合与改进检测头提升小目标召回;同时在复杂场景验证并结合轻量化与注意力/聚合策略,以在不同尺度与资源约束下保持定位精度。相关文献: Tao Wang et. al, 2026 等 20 篇文献
    实时与可部署识别定位:端到端多任务/实例分割与流式延迟
    以YOLO/一阶段检测与工程端到端管线为主线,强调实时性与可部署性:包含轻量化、注意力/动态模块、边缘/车载/无人机等端侧推理;同时覆盖实时多任务、实例分割融合、流式延迟补偿与端到端系统集成。该组体现“检测定位方法→可运行系统”的落地导向。相关文献: Guanghao Liao et. al, 2026 等 43 篇文献
    资源受限与边缘部署:能效/压缩/联邦学习驱动的实时检测
    以资源受限与部署能效为共同约束:通过轻量架构、端侧/FPGA等实现与精度-延迟-算力权衡;并将联邦学习/自蒸馏等机制纳入实时检测框架,以提升隐私与持续适配能力。该组聚焦“效率与部署”作为主目标。相关文献: K. Vinoth et. al, 2025 等 5 篇文献
    少样本、域泛化与增量/持续学习适配(few-shot / domain gap / continual)
    共同面向少样本、域泛化与持续学习:通过高效微调(LoRA等)、域差异处理与原型/3D推理泛化策略,或用自蒸馏/重放缓解灾难性遗忘,从而提高在数据不足或分布变化条件下的识别定位可靠性。相关文献: Guillaume Balezo et. al, 2025 等 6 篇文献
    数据合成与提示驱动的定位/分割(合成标注与自动prompt)
    通过“数据合成与提示驱动”改善定位与类别识别:用对象中心与几何/相机配置生成可扩展的标注用于训练;在SAM体系下自动生成更精确的提示并注入知识以提升核实例分割与定位精度。相关文献: Weikai Huang et. al, 2025 等 2 篇文献
    时空与跨域表征增强:多尺度、注意力、全局上下文与特征融合
    聚焦表征层增强带来的效果提升:通过多尺度特征聚合、全局上下文建模、注意力与跨视角关联,把“定位/分类”的关键困难(小目标、密集目标、低可见、跨域)转化为表征与融合能力问题。相关文献: Jin-Kyu Ryu et. al, 2025 等 5 篇文献
    生成式检测:边界框预测的条件生成范式
    把目标检测重定义为生成式任务:将边界框回归转为条件生成(直接生成带类别/框的输出),体现范式从判别式检测器向可控生成式检测迁移。
    领域/应用定制的检测定位:医疗、安检、交互与行业质检
    面向医疗、安检、交互与行业质检等特定场景的任务定制:强调针对领域数据与偏移的检测器改造、骨干/注意力/Transformer或Mamba类结构替换,以及与具体应用目标(早诊、非法物体、手势/交互、岩心/缺陷识别等)的对齐。相关文献: N. K. T. et. al, 2024 等 12 篇文献
    Faster R-CNN及其改造:医疗/工程/农业识别与时序增强
    以Faster R-CNN及其改造为核心:包括在医疗/农业/工程识别中的实践,骨干替换(Swin等)、时序上下文(Bi-LSTM)、以及与数据增强策略结合来改善复杂背景与小目标/噪声场景的识别定位效果。相关文献: Jiawei Tian et. al, 2025 等 11 篇文献
    多模态/语言/VLM与输入增强:超分辨率、扩散合成与跨模态融合
    以多模态与语言/合成输入增强为主:使用超分辨率与可控扩散合成增强低质量/遥感场景;通过投票或CNN融合实现多源信息互补,并引入VLM/LVLM实现语言条件推理与跨模态目标理解,从而提升类别识别与定位泛化。相关文献: Divya Swetha K et. al, 2025 等 8 篇文献
    实例级任务:检测-分割联合与多边形/统一实例表征
    专注实例级表征:将检测扩展为实例分割(统一架构、mask head、金字塔特征等),并探索用多边形顶点/统一实例表征替代像素级mask以降低计算负担,同时覆盖分割与检测的协同定位。相关文献: Jiacheng Sun et. al, 2026 等 5 篇文献
    定位输出形式扩展:分类-回归、单目3D检测与关键点定位
    将定位输出形式从“类别+框”扩展到更广的回归/3D/关键点表征:包括分类-回归的连续属性预测、单目3D目标检测与3D关键点(点位本地化)定位,体现任务建模层面的扩展。相关文献: Anoop Kini et. al, 2025 等 3 篇文献
    (单篇补充)实时轻量化目标检测代表(GMS-YOLO)
    该文献在初始化分组中属于实时轻量化落地方向,但在合并后同时覆盖了实时/端到端与轻量化部署的主线。为避免跨组交叉,保留其作为实时轻量化代表以支撑该方向证据链。相关文献: Yafei Chen et. al, 2025