单目深度估计，稀疏雷达丰富，点云拼接

本报告综合了三维视觉感知领域的前沿研究，形成了从底层深度估计到高层空间对齐的完整技术链条。研究核心已从单一的单目深度预测演进为多模态融合（雷达+视觉）与大模型驱动（扩散模型+基座模型）的双轨并行模式。深度补全技术有效解决了传感器稀疏性问题，而点云配准与SLAM集成则保障了大规模场景下的空间一致性。这些技术的融合应用，正显著提升自动驾驶、机器人导航及精密医疗在复杂、动态及恶劣环境下的感知精度与鲁棒性。

共 136 篇文献，6 个研究方向

单目深度估计的自监督学习与轻量化架构

该组文献专注于从单张RGB图像或视频序列中恢复深度。研究重点包括自监督学习框架（如处理尺度模糊、边界清晰度）、针对嵌入式设备的轻量化Transformer设计、以及在特定垂直领域（如内窥镜、全景图、果园）的鲁棒性分析与应用。相关文献: Dong-Jae Lee et. al, 2023 等 25 篇文献

基于生成式模型与视觉基座模型的深度感知增强

该组文献代表了当前最前沿的研究趋势，利用扩散模型（Diffusion Models）、视觉基座模型（VFM/Foundation Models）以及高斯泼溅（Gaussian Splatting）技术，提升深度估计的零样本泛化能力、几何一致性以及在稀疏视角下的3D重建质量。相关文献: Xiankang He et. al, 2025 等 13 篇文献

稀疏深度补全与多尺度稠密化技术

此类文献研究如何将来自LiDAR、VIO或形态学操作生成的稀疏深度样本，结合RGB图像引导转化为稠密深度图。核心技术涉及多尺度特征融合、边界一致性增强、自监督补全框架以及在自动驾驶和微操作任务中的实时应用。相关文献: Yangchao Wu et. al, 2023 等 25 篇文献

毫米波雷达与视觉的多模态融合感知

该组文献集中于毫米波雷达（含4D成像雷达）与摄像头的深度融合。利用雷达的全天候鲁棒性解决视觉的尺度模糊和恶劣天气下的失效问题，涵盖了雷达点云上采样、伪点云生成、语义引导融合及跨模态校准技术。相关文献: Zecheng Li et. al, 2024 等 39 篇文献

点云配准、拼接与跨模态空间对齐

该组文献探讨了三维点云之间的几何对齐与拼接问题。包括跨源点云配准、部分重叠场景下的匹配、基于强化学习或元学习的配准优化，以及将图像与点云进行跨模态对齐的技术，旨在实现多源数据在空间上的一致性。相关文献: Haobo Jiang et. al, 2021 等 30 篇文献

视频深度一致性与SLAM集成系统

此类文献关注深度估计在动态环境和连续视频流中的表现。重点在于通过集成SLAM系统（如ORB-SLAM3）提供尺度初始化，并利用时间相干性、光流引导或运动感知来确保深度预测在时间轴上的稳定性和全局一致性。相关文献: Gan Huang et. al, 2025 等 4 篇文献

总计136篇相关文献

Supervising radar depth completion using the monocular depth large model.

基于单目深度大模型的雷达深度补全监督方法

Jiming Chen, Zili Zhou, Zhu Yu 等, 2025-Applied optics

In recent years, radar depth completion has made significant advances in developing backbone networks and high-quality datasets. However, less attention has been paid to optimizing the supervision manner. In this work, we propose a novel supervision method, to the best of our knowledge, using a relative-to-metric conversion (R2MC) module to leverage the generalization capability of the monocular depth large model (MDLM). The R2MC module employs sparse LiDAR data to obtain metric depth scales through pixelwise local mapping while preserving the generalization capability of the MDLM. The experimental results illustrate that our R2MC module can be combined with different backbones and improve their performance compared to their original supervision manners.