多模态工业异常检测

多源模态融合与3D几何特征增强

该组研究侧重于RGB图像与3D点云、深度图或表面法向量的深度整合。通过特征级融合、双向重建、跨模态蒸馏及频率对齐等机制，利用模态间的互补性捕捉微小形变或复杂空间结构的异常，解决单一模态信息不足的问题。

FMFR: Feature-level Multistage Fusion and Remapping for Multimodal Industrial Anomaly Detection（Chunshui Wang, Hengran Zhang, 2026, Journal of Computational Design and Engineering）
Multimodal multiscale industrial anomaly detection via flows（Haicheng Qu, Junjie Lin, 2025, Journal of Image and Graphics）
Multimodal Industrial Anomaly Detection via Attention-Enhanced Memory-Guided Network（Shuaibo Liu, Xiaoli Luan, Yueyang Li, 2026, IEEE Transactions on Multimedia）
Masked Cross-modal Reconstruction Network (MCR-Net) for Multi-modal Industrial Anomaly Detection（Li Mai, Chen Dai, Hongji Ma, Xin Lin, Shiwei Guo, Guang Yan, 2025, 2025 IEEE 3rd International Conference on Computer, Vision and Intelligent Technology (ICCVIT)）
Unsupervised Visual-to-Geometric Feature Reconstruction for Vision-Based Industrial Anomaly Detection（Dinh-Cuong Hoang, Phan Xuan Tan, Anh-Nhat Nguyen, Duc-Thanh Tran, van-Hiep Duong, Anh-Truong Mai, D. Pham, Khanh-Toan Phan, Minh-Quang Do, Ta Huu Anh Duong, Tuan-Minh Huynh, Son-Anh Bui, Duc-Manh Nguyen, Viet-Anh Trinh, Khanh-Duong Tran, Thu-Uyen Nguyen, 2025, IEEE Access）
Multimodal Industrial Anomaly Detection via Uni-Modal and Cross-Modal Fusion（Hao Cheng, Jiaxiang Luo, Xianyong Zhang, 2025, IEEE Transactions on Industrial Informatics）
VLDFNet: Views-Graph and Latent Feature Disentangled Fusion Network for Multimodal Industrial Anomaly Detection（Chenxing Xia, Chaofan Liu, Yicong Zhou, Kuan Ching Li, 2025, IEEE Transactions on Instrumentation and Measurement）
Auxiliary Information Flow for 3D Industrial Defect Detection on IC Ceramic Package Substrate Surfaces: Dataset and Benchmark（Ruiyun Yu, Ziming Zhao, Shi Zhen, 2026, IEEE Transactions on Circuits and Systems for Video Technology）
Enhancing Multimodal Anomaly Detection via Asymmetric Dual-Branch Reverse Distillation（Zihe Chen, Bin Chen, Jianfeng Yang, Yichi Chen, Yuan Zhang, 2025, The Visual Computer）
Unified Unsupervised Anomaly Detection via Matching Cost Filtering（Zhe Zhang, Mingxiu Cai, Gao‐Song Wu, Jing Zhang, Lingqiao Liu, Dacheng Tao, Tianyou Chai, Xiatian Zhu, 2025, ArXiv）
Inter-modality feature prediction through multimodal fusion for 3D shape defect detection（Mujtaba Asad, Waqar Azeem, Hafiz Tayyab Mustafa, Yuming Fang, Jie Yang, Yifan Zuo, Wei Liu, 2025, Neural networks : the official journal of the International Neural Network Society）
FAMRD: Frequency-Aware Multimodal Reverse Distillation for Industrial Anomaly Detection（Qiyin Zhong, Xianglin Qiu, Xiaolei Wang, Zhen Zhang, Gang Liu, Jimin Xiao, 2025, Proceedings of the 33rd ACM International Conference on Multimedia）
BridgeNet: A Unified Multimodal Framework for Bridging 2D and 3D Industrial Anomaly Detection（An Xiang, Zixuan Huang, Xitong Gao, Kejiang Ye, Cheng-zhong Xu, 2025, Proceedings of the 33rd ACM International Conference on Multimedia）
HGCF: Hierarchical Geometry-Color Fusion for Multimodal Industrial Anomaly Detection（Min Li, Jinghui He, Jiachen Li, Delong Han, Jin Wan, Gang Li, 2025, Proceedings of the 33rd ACM International Conference on Multimedia）
A multimodal industrial anomaly detection method based on mask training and teacher-student joint memory（Yi Liu, Changsheng Zhang, Xingjun Dong, Yufei Yang, 2025, Eng. Appl. Artif. Intell.）
CPIR: Multimodal Industrial Anomaly Detection via Latent Bridged Cross-modal Prediction and Intra-modal Reconstruction（Shangguan Wen, Hongqiang Wu, Yanchang Niu, Haonan Yin, Jiawei Yu, Bokui Chen, Biqing Huang, 2025, Adv. Eng. Informatics）
DFRF-MIAD: Multimodal Industrial Anomaly Detection via Feature Reconstruction and Fusion（Feng Wu, Zhaojing Wang, Li Li, 2026, No journal）
A multi-expert framework for enhancing multimodal large language models in industrial anomaly detection（Zhiling Chen, Farhad Imani, 2026, Pattern Recognit.）
Zero-shot Anomaly Detection Algorithm Based on Adaptive Feature Fusion（Xiaoquan Tang, Hongjie Liu, Zhen Wang, Tao Liu, 2025, 2025 5th International Conference on Artificial Intelligence, Virtual Reality and Visualization (AIVRV)）
A hierarchical framework for three‐dimensional pavement crack detection on point clouds with multi‐scale abnormal region filtering and multimodal interaction fusion（Jiayv Jing, Ling Ding, Xu Yang, Hang Cheng, Yazhen Qiu, Hainian Wang, Rauno Heikkilä, 2025, Computer‐Aided Civil and Infrastructure Engineering）
DCRDF-Net: A Dual-Channel Reverse-Distillation Fusion Network for 3D Industrial Anomaly Detection（Chunshui Wang, Jianbo Chen, Heng Zhang, 2026, Sensors (Basel, Switzerland)）
Unsupervised Feature Metric-Based Multimodal Anomaly Detection Method（Liu Li, 2025, 2025 5th International Conference on Artificial Intelligence, Big Data and Algorithms (CAIBDA)）
2M3DF: Advancing 3D Industrial Defect Detection With Multi-Perspective Multimodal Fusion Network（Mujtaba Asad, Waqar Azeem, He Jiang, Hafiz Tayyab Mustafa, Jie Yang, Wei Liu, 2025, IEEE Transactions on Circuits and Systems for Video Technology）
Multimodal Industrial Anomaly Detection via Geometric Prior（Min Li, Jinghui He, Gang Li, Jiachen Li, Jin Wan, Delong Han, 2026, IEEE Transactions on Circuits and Systems for Video Technology）
MambaAlign: Alignment-Aware State-Space Fusion for RGB-X Industrial Anomaly Detection（Dinh-Cuong Hoang, Phan Xuan Tan, Anh-Nhat Nguyen, D. Ngo, Minh-Duc Cao, Minh-Quang Vu, Hoang-Nam Duong, S. Nguyen, Thi-Hong Le, Van-Viet Dang, Xuan-Tung Dinh, Minh-Anh Nguyen, Minh-Quang Do, Van-Khanh Giap, van-Hiep Duong, 2025, Journal of Computational Design and Engineering）

基于视觉语言模型（VLM）的零样本与少样本检测

此类文献利用预训练模型（如CLIP）的跨模态对齐能力，通过提示工程（Prompt Engineering）、多尺度感知、属性感知或特征解耦技术，在无需或仅需极少量目标数据训练的情况下，实现工业缺陷的快速分类与定位。

MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples（Xurui Li, Feng Xue, Yu Zhou, 2025, ArXiv）
Supad: a superordinary zero-shot industrial anomaly detection network based on gated-agnostic multimodal adaptive learning prompts（Xinying Li, Junfeng Jing, Tong Wu, Xin Zhang, Wei Liu, 2026, Journal of Intelligent Manufacturing）
V2TCASA: Vision to text class-agnostic state-agnostic for industrial zero-shot anomaly detection（Cheng Jiang, Lingxi Peng, Haohuai Liu, 2025, Signal, Image and Video Processing）
Towards Zero-Shot Anomaly Detection via Adaptive Prompting and Multi-Scale Cross-Modal Interaction（Guo Tang, Weidong Zhao, Ning Jia, Xianhui Liu, 2025, 2025 7th International Conference on Robotics and Computer Vision (ICRCV)）
An efficient and scale-aware zero-shot industrial anomaly detection technique based on optimized CLIP（Yahui Cheng, Guojun Wen, Aoshuang Luo, Shuang Mei, Hongbo Dong, Xingyue Liu, 2025, Measurement）
Toward Zero-Shot Point Cloud Anomaly Detection: A Multiview Projection Framework（Yuqi Cheng, Yunkang Cao, Guoyang Xie, Zhichao Lu, Weiming Shen, 2026, IEEE Transactions on Systems, Man, and Cybernetics: Systems）
H2SP-AD: hierarchical hybrid softened prompt learning for instance-aware zero-shot industrial anomaly detection（Qishuo Yang, Ying Chen, 2026, Journal of Intelligent Manufacturing）
StackCLIP: Clustering-Driven Stacked Prompt in Zero-Shot Industrial Anomaly Detection（Yanning Hou, Yanran Ruan, Junfa Li, Shanshan Wang, Jianfeng Qiu, Ke Xu, 2025, ArXiv）
Human-Guided Zero-Shot Surface Defect Semantic Segmentation（Yuxin Jin, Yunzhou Zhang, Dexing Shan, Zhifei Wu, 2025, IEEE Transactions on Instrumentation and Measurement）
SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection（Chenhao Fu, Han Fang, Xiuzheng Zheng, Wenbo Wei, Yonghua Li, Hao Sun, Xuelong Li, 2026, ArXiv）
Multimodal zero-shot anomaly detection using dual-experts for electrical power equipment inspection images（Hua Wu, Donghao Jia, Tingting Zhang, Xiaojing Bai, Li Sun, Mengyang Pu, 2025, Journal of Image and Graphics）
ZUMA: Training-free Zero-shot Unified Multimodal Anomaly Detection.（Yunfeng Ma, Min Liu, Shuai Jiang, Jingyu Zhou, Yuan Bian, Xueping Wang, Yaonan Wang, 2026, IEEE transactions on pattern analysis and machine intelligence）
ZSDD: Zero-Shot Detection and Segmentation of Surface Defects Using Pre-Trained Models（Mohammad Sadeghpoor, M. Nahvi, 2025, 2025 7th International Conference on Pattern Recognition and Image Analysis (IPRIA)）
AnomalyNLP: Noisy-Label Prompt Learning for Few-Shot Industrial Anomaly Detection（L. Hua, Jin Qian, 2025, Electronics）
A Training-Free Correlation-Weighted Model for Zero-/Few-Shot Industrial Anomaly Detection with Retrieval Augmentation（Wei Ran, Zefang Yu, Suncheng Xiang, Ting Liu, Yuzhuo Fu, 2025, ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)）
MGFD-CLIP: Multi-Granularity Feature Decoupling for Zero-Shot Industrial Anomaly Detection（Zichun Zhang, Jiehao Chen, 2025, 2025 5th International Conference on Artificial Intelligence and Industrial Technology Applications (AIITA)）
MCL-AD: Multimodal Collaboration Learning for Zero-Shot 3D Anomaly Detection（Gang Li, Tianjiao Chen, Mingle Zhou, Min Li, Delong Han, Jin Wan, 2025, ArXiv）
MultiADS: Defect-aware Supervision for Multi-type Anomaly Detection and Segmentation in Zero-Shot Learning（Ylli Sadikaj, Hongkuan Zhou, Lavdim Halilaj, Stefan Schmid, Steffen Staab, Claudia Plant, 2025, ArXiv）
DHR-CLIP: Dynamic High-Resolution Object-Agnostic Prompt Learning for Zero-shot Anomaly Segmentation（Jiyul Ham, Jun-Geol Baek, 2025, 2025 International Conference on Artificial Intelligence in Information and Communication (ICAIIC)）
WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation（Jongheon Jeong, Yang Zou, Taewan Kim, Dongqing Zhang, Avinash Ravichandran, O. Dabeer, 2023, 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)）
Zero-Shot Industrial Anomaly Detection via CLIP-DINOv2 Multimodal Fusion and Stabilized Attention Pooling（Junjie Jiang, Zongxiang He, Anping Wan, Khalil Al-Bukhaiti, Kaiyang Wang, Peiyi Zhu, Xiaomin Cheng, 2025, Electronics）
Zero-Shot Defect Detection With Anomaly Attribute Awareness via Textual Domain Bridge（Zhe Zhang, Shu Chen, Jian Huang, Jie Ma, 2025, IEEE Sensors Journal）
Local Enhancement and Semantic Alignment for Zero-Shot Anomaly Detection（Xiaohong Qiu, Jing Huang, Jun Hu, Yangfen Wang, 2025, 2025 10th International Conference on Computer and Information Processing Technology (ISCIPT)）
Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection（Zhen Qu, Xian Tao, Xinyi Gong, Shichen Qu, Qiyu Chen, Zhengtao Zhang, Xingang Wang, Guiguang Ding, 2025, 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)）
Adapting OpenAI's CLIP Model for Few-Shot Image Inspection in Manufacturing Quality Control: An Expository Case Study with Multiple Application Examples（F. Megahed, Ying-Ju Chen, B. Colosimo, Marco Luigi, G. Grasso, L. A. Jones‐Farmer, Sven Knoth, Hongyue Sun, I. Zwetsloot, 2025, ArXiv）
Zero-Shot Industrial Anomaly Segmentation with Image-Aware Prompt Generation（SoYoung Park, Hyewon Lee, Mingyu Choi, Seunghoon Han, Jong-Ryul Lee, Sungsu Lim, Tae-Ho Kim, 2025, No journal）
DNPR: Zero-shot industrial anomaly detection via dynamic normal prototype refinement（Shuyun Li, Zhi Li, Weidong Wang, Long Zheng, Yu Lu, 2026, Expert Syst. Appl.）
Accurate industrial anomaly detection with efficient multimodal fusion（Dinh-Cuong Hoang, Phan Xuan Tan, Anh-Nhat Nguyen, Ta Huu Anh Duong, Tuan-Minh Huynh, Duc-Manh Nguyen, Minh-Duc Cao, D. Ngo, Thu-Uyen Nguyen, Khanh-Toan Phan, Minh-Quang Do, Xuan-Tung Dinh, van-Hiep Duong, Ngoc-Anh Hoang, van-Thiep Nguyen, 2025, Array）
InspectVLM: Unified in Theory, Unreliable in Practice（Conor Wallace, I. Corley, Jonathan Lwowski, 2025, 2025 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW)）

多模态大模型（MLLM）驱动的逻辑推理与可解释性检测

该组研究探索利用大语言模型（LLM）或多模态大模型（如GPT-4V, InternVL）进行端到端异常分析。通过引入思维链（CoT）、多智能体协作（Multi-agent）或检索增强生成（RAG），模型不仅能定位异常，还能提供逻辑解释和缺陷描述，处理复杂的逻辑异常。

Towards Training-free Anomaly Detection with Vision and Language Foundation Models（Jinjin Zhang, Guodong Wang, Yizhou Jin, Di Huang, 2025, 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)）
AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection（Yuhao Chao, Jie Liu, Jie Tang, Gangshan Wu, 2025, ArXiv）
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning（Shifang Zhao, Yiheng Lin, Lu Han, Yao Zhao, Yunchao Wei, 2025, ArXiv）
IADGPT: Unified LVLM for Few-Shot Industrial Anomaly Detection, Localization, and Reasoning via In-Context Learning（Mengyang Zhao, Teng Fu, Haiyang Yu, Ke Niu, Bin Li, 2025, ArXiv）
The Amazon Nova Family of Models: Technical Report and Model Card（Amazon Agi, Aaron Langford, Aayush Shah, Abhanshu Gupta, Abhimanyu Bhatter, Abhinav Goyal, Abhinav Mathur, Abhinav Mohanty, Abhishek Kumar, A. Sethi, A. Komma, A. Pena, Achin Jain, Adam Kunysz, Adam Opyrchal, Adarshjit Singh, Aditya Rawal, Adok Achar Budihal Prasad, A. D. Gispert, Agni Kumar, Aishwarya Aryamane, A. Nair, M. Akilan, Akshaya Iyengar, A. Shanbhogue, A. He, Alessandra Cervone, A. Loeb, Alex L. Zhang, A. Fu, Alexander Lisnichenko, Alexander Zhipa, Alexandros Potamianos, Ali Kebarighotbi, A. Daronkolaei, Alok Parmesh, Amanjot Kaur Samra, Ameen Khan, A. Rez, Amir Saffari, Amit Agarwalla, Amit Jhindal, A. Mamidala, Ammar Asmro, A. Ballakur, Anand Mishra, A. Sridharan, Anastasiia Dubinina, A. Lenz, Andreas Doerr, Andrew Keating, Andrew Leaver, Andrew K Smith, A. Wirth, A. Davey, Andrew Rosenbaum, Andrew Sohn, A. Chan, Aniket Chakrabarti, Anil Ramakrishna, Anirban Roy, A. Iyer, Anjali Narayan-Chen, Ankith Yennu, Anna Dąbrowska, Anna Gawlowska, Anna Rumshisky, Anna Turek, Anoop Deoras, Anton Bezruchkin, A. Prasad, Anupam Dewan, A. Kiran, Apoorv Gupta, A.G. Galstyan, Aravind Manoharan, Arijit Biswas, Arindam Mandal, Arpit Gupta, Arsamkhan Pathan, A. Nagarajan, A. Rajasekaram, A. Sundararajan, Ashwin Ganesan, Ashwin Swaminathan, Athanasios Mouchtaris, Audrey Champeau, Avik Ray, Ayush Jaiswal, Ayushi Sharma, Bailey Keefer, Balamurugan Muthiah, Beatriz Leon-Millan, B. Koopman, Benny Li, Benjamin Biggs, Benjámin Ott, B. Vinzamuri, B. Venkatesh, Bhavana Ganesh, Bhoomit Vasani, Bill Byrne, Bill Hsu, Bincheng Wang, B. King, Blazej Gorny, Bo Feng, Bo Zheng, Bodhisattwa Paul, Bo Sun, Bofeng Luo, Bowen Chen, Bowen Xie, Bo Yu, Brendan Jugan, Brett Panosh, B. Collins, Brian Thompson, Can Karakus, Can Liu, Carl Lambrecht, Carly Lin, Carolyn Wang, C. Yuan, Casey Loyda, Cezary Walczak, Chalapathi Choppa, C. Prakash, Chankrisna Richy Meas, Charith Peris, Charles Recaido, Charlie Xu, Charul Sharma, Chase Kernan, C. Thanapirom, Chengwei Su, Chenhao Xu, Chenhao Yin, Chentao Ye, Chenyang Tao, Chethan Parameshwara, Ching-Yun Chang, Chong Li, Chris Hench, Chris Tran, Christophe Dupuy, Christopher Davis, Chris DiPersio, Christos Christodoulopoulos, Christy Li, Chun Chen, Claudio Delli Bovi, Clement Chung, Cole Hawkins, C. Harris, Corey Ropell, Cynthia He, DK Joo, Dae Yon Hwang, Dan Rosén, D. Elkind, Daniel Pressel, Daniel T. Zhang, D. Kimball, Daniil Sorokin, Dave Goodell, Davide Modolo, Dawei Zhu, D. Suresh, Deepti Ragha, D. Filimonov, Denis Foo Kune, Denis Romasanta Rodriguez, Devamanyu Hazarika, Dhananjay Ram, Dhawal Parkar, Dhawal Patel, D. Desai, D. Rajput, Disha Sule, D. Singh, Dmitriy Genzel, Dolly Goldenberg, Dongyi He, Dumitru Hanciu, Dushan Tharmal, Dzmitry Siankovich, Edi Cikovic, E. Abraham, Ekraam Sabir, E. Olson, Emmett Steven, Emre Barut, Eric Jackson, Ethan Wu, Evelyn Chen, Ezhilan Mahalingam, Fabian Triefenbach, Fan Yang, Fangyu Liu, Fan Wu, Faraz Tavakoli, Farhad Khozeimeh, Feiyang Niu, F. Hieber, Feng Li, Firat Elbey, F. Krebs, F. Saupe, Florian Sprunken, Frank Fan, F. Khan, Gabriela De Vincenzo, Gagandeep Kang, George Ding, G. He, G. Yeung, Ghada Qaddoumi, Giannis Karamanolakis, Goeric Huybrechts, Gokul Maddali, Gonzalo Iglesias, Gordon McShane, Gozde Sahin, Guangtai Huang, Gukyeong Kwon, Gunnar Sigurdsson, Gurpreet Chadha, Gururaj Kosuru, Hagen Fuerstenau, Hah Hah, H. Maideen, Hajime Hosokawa, Han Liu, Han-Kai Hsu, Han Wang, Hao Li, Hao Yang, Hao Zhu, Haozheng Fan, Harman M. Singh, H. Kaluvala, H. Saeed, He Xie, Helian Feng, Hendrix Luo, Hengzhi Pei, H. Nielsen, H. Ilati, Himanshu Patel, Hongshan Li, Hongzhou Lin, Hussain Raza, Ian Cullinan, I. Kiss, Inbarasan Thangamani, Indrayani Fadnavis, I. Sorodoc, Irem Ertuerk, Iryna Yemialyanava, I. Soni, Ismail Jelal, I. Tse, Jack G. M. Fitzgerald, Jack Zhao, Jackson Rothgeb, Jacky Lee, Jake Jung, Jakub Dębski, J. Tomczak, James Jeun, James R. Sanders, J. Crowley, Jay Lee, Jayakrishna Anvesh Paidy, J. Tiwari, J. Farmer, Jeff Solinsky, Jenna Lau, Jeremy Savareese, Jerzy Zagorski, Jiawei Dai, Jiachen Gu, Jiahui Li, Jian Zheng, Jianhua Lu, Jianhua Wang, Jiawei Dai, Jiawei Mo, Jiaxi Xu, Jie Liang, Jie Yang, J. Logan, Jimit Majmudar, Jing Liu, J. Miao, Jingru Yi, Jingyang Jin, Jiun-Yu Kao, Jixuan Wang, Jiyang Wang, J. Pemberton, Joel Carlson, J. Blundell, John Chin-Jew, John He, Jonathan Ho, Jonathan Hueser, Jonathan Lunt, Jooyoung Lee, Joshua Z. Tan, Joyjit Chatterjee, Judith Gaspers, Jue Wang, Jun Fang, Jun Tang, Jun Wan, Jun Wu, Junle Wang, Junyi Shi, Justin Chiu, Justin Satriano, Justin Yee, J. Dhamala, J. Bansal, Kai Zhen, Kai-Wei Chang, Kaixiang Lin, K. Raman, Kanthashree Mysore Sathyendra, Karabo Moroe, Karan Bhandarkar, Karan Kothari, Karolina Owczarzak, Karthick Gopalswamy, K. Ravi, Karthik Ramakrishnan, Karthika Arumugam, Kartik Mehta, Katarzyna Konczalska, Kavya Ravikumar, K. Tran, Ke Qin, Kelin Li, K. Li, Ketan Kulkarni, K. Rodrigues, K. Patel, Khadige Abboud, K. Hajebi, K. Reiter, K. Schultz, Krishna Anisetty, Krishna Kotnana, Kristen Li, Kruthi Channamallikarjuna, Krzysztof Jakubczyk, Kuba Pierewoj, Kunal Pal, K. Srivastav, Kyle Bannerman, Lahari Poddar, Lakshmi Prasad, L. Tseng, L. Naik, L. C. Vankadara, Lenon Minorics, Leo Liu, Leonard Lausen, Leonardo F. R. Ribeiro, Li Zhang, Lili Gehorsam, L. Qi, Lisa Bauer, Lori Knapp, Lu Zeng, L. Tong, Lulu Wong, Luoxin Chen, M. Rudnicki, Mahdi Namazifar, Mahesh Jaliminche, Maira Ladeira Tanke, Manas Gupta, Mandeep Ahlawat, M. Khanuja, Mani Sundaram, M. Leyk, M. Momotko, Markus Boese, Markus Dreyer, Markus Mueller, M. Fu, M. G'orski, Mateusz Mastalerczyk, Matias Mora, Matt Johnson, M. Scott, Matthew Wen, Max Barysau, Maya Boumerdassi, Maya Krishnan, Mayank Gupta, Maya Hirani, Mayank Kulkarni, Meganathan Narayanasamy, M. Bradford, Melanie Gens, Melissa P. Burke, Meng Jin, Miao Chen, Michael J. Denkowski, Michael Heymel, Michael Krestyaninov, Michal Obirek, Michalina Wichorowska, M. Miotk, Milosz Watroba, Mingyi Hong, Mingzhi Yu, Miranda Liu, Mohamed Gouda, Mohammad El-Shabani, Mohammad Ghavamzadeh, Mohit Bansal, Morteza Ziyadi, Nan Xia, Nathan Susanj, Nav Bhasin, N. Goswami, Nehal Belgamwar, Nicolas Anastassacos, N. Bergeron, Nidhi Jain, Nihal Jain, Niharika Chopparapu, N. Xu, N. Strom, Nikolaos Malandrakis, Nimisha Mishra, Ninad Parkhi, Ninareh Mehrabi, Nishita Sant, Nishtha Gupta, Nitesh Sekhar, Nithin Rajeev, Nithish Raja Chidambaram, N. Dhar, Noor Bhagwagar, Noy Konforty, Omar Babu, Omid Razavi, Orchid Majumder, O. Dar, O. Hsu, Pablo Kvitca, Pallavi Pandey, Parker Seegmiller, Patrick Lange, Paul J. Ferraro, Payal Motwani, P. Kharazmi, Peifeng Wang, Pengfei Liu, Peter Bradtke, Peter Gotz, Peter Zhou, Pichao Wang, Piotr Poskart, Pooja Sonawane, Pradeep Natarajan, Pradyun Ramadorai, Pralam Shah, Prasad M. Nirantar, Prasanthi Chavali, Prashan Wanigasekara, Prashant Saraf, Prashun Dey, P. Pant, P. Pradhan, Preya Patel, Priyanka Dadlani, Prudhvee Narasimha Sadha, Qi Dong, Qian Hu, Qiaozi Gao, Qing Liu, Quinn Lam, Quynh Do, R. Manmatha, Rachel Willis, Rafael Liu, Rafal Ellert, Rafal Kalinski, Rafi Al Attrach, Ragha Prasad, R. Prasad, Raguvir Kunani, Rahul Gupta, Rahul Sharma, 2025, ArXiv）
Intern-S1: A Scientific Multimodal Foundation Model（Lei Bai, Zhongrui Cai, Yuhang Cao, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kaiming Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqing Dong, Peijie Dong, Shi-Hua Dou, Si-na Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Han-Hwa Hu, Jucheng Hu, Mingxue Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xuantuo Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peijin Li, Pengze Li, Shuaibin Li, Tian-Xin Li, Wei Li, Yuqiang Li, Tianyi Liang, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hong-wei Liu, Jiangning Liu, Jiyao Liu, Jun'nan Liu, Kaiwen Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shi Yuan Liu, Shudong Liu, Shudong Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hong Lv, Huijie Lv, Qitan Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jian-Kai Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yi-dan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning (Raymond) Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jia-Ming Qiu, Xiaoye Qu, Yuanbin Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Shuaike Shen, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, K. Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Jiaqi Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Li-Yi Xiao, Shu-Qiao Xing, Chao Xu, Huihui Xu, Jun Xu, Rui Xu, Wanghan Xu, Ganlin Yang, Yuming Yang, Hao-nan Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Yu Zang, Bo Zhang, ChaoBin Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiao-xuan Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yun-Yi Zhou, Dongsheng Zhu, Lin Zhu, Yi Zou, 2025, ArXiv）
Towards VLM-based Hybrid Explainable Prompt Enhancement for Zero-Shot Industrial Anomaly Detection（Weichao Cai, Weiliang Huang, Yunkang Cao, Chao Huang, Fei Yuan, Bob Zhang, Jie Wen, 2025, No journal）
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models（Jiacong Xu, Shao-Yuan Lo, Bardia Safaei, Vishal M. Patel, Isht Dwivedi, 2025, 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)）
Detect, Classify, Act: Categorizing Industrial Anomalies with Multi-Modal Large Language Models（Sassan Mokhtar, Arian Mousakhan, Silvio Galesso, Jawad Tayyub, Thomas Brox, 2025, 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)）
EMIT: Enhancing MLLMs for Industrial Anomaly Detection via Difficulty-Aware GRPO（Wei Guan, Jun Lan, Jian Cao, Hao Tan, Huijia Zhu, Weiqiang Wang, 2025, ArXiv）
LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction（Er Jin, Qihui Feng, Yongli Mou, Stefan Decker, G. Lakemeyer, Oliver Simons, Johannes Stegmaier, 2025, ArXiv）
PB-IAD: Utilizing multimodal foundation models for semantic industrial anomaly detection in dynamic manufacturing environments（Bernd Hofmann, Albert Scheck, Joerg Franke, Patrick Bruendl, 2025, ArXiv）
AgentIAD: Tool-Augmented Single-Agent for Industrial Anomaly Detection（Junwen Miao, Penghui Du, Yi Liu, Yu Wang, Yan Wang, 2025, ArXiv）
IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection（Zewen Li, Zitong Yu, Qilang Ye, Weicheng Xie, Wei Zhuo, Linlin Shen, 2025, IEEE Transactions on Instrumentation and Measurement）
Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection?（Zhiling Chen, Hanning Chen, Mohsen Imani, Farhad Imani, 2025, ArXiv）
Think-to-Detect: Rationale-Driven Vision–Language Anomaly Detection（Mahmoud Abdalla, M. Kasem, Mohamed Mahmoud, Mostafa Farouk Senussi, Abdelrahman Abdallah, Hyun-Soo Kang, 2025, Mathematics）
LR-IAD: Mask-Free Industrial Anomaly Detection with Logical Reasoning（Peijian Zeng, Feiyan Pang, Zhanbo Wang, Aimin Yang, 2025, 2025 IEEE International Conference on Data Mining (ICDM)）
Zero-Shot Anomaly Detection in Laser Powder Bed Fusion Using Multimodal RAG and Large Language Models（Kiarash Naghavi Khanghah, Zhiling Chen, Lela Romeo, Qian Yang, R. Malhotra, Farhad Imani, Hongyi Xu, 2025, Journal of Mechanical Design）
MALM-CLIP: A generative multi-agent framework for multimodal fusion in few-shot industrial anomaly detection（Hanzhi Chen, Jingbin Que, Kexin Zhu, Zhide Chen, F. Zhu, Wencheng Yang, Xu Yang, Xuechao Yang, 2025, Inf. Fusion）
ID-RAG: industrial defect retrieval-augmented generation for industrial surface defect detection（Mingyu Lee, Jongwon Choi, 2026, Machine Vision and Applications）

前沿架构探索：Mamba、扩散模型与高效微调

这些研究引入了如状态空间模型（Mamba）以提升长序列处理效率，或利用扩散模型（Diffusion Models）的生成能力捕获复杂语义。同时涵盖了针对工业基础模型的高效微调（PEFT）和跨领域自适应方法。

HFMM-Net: A Hybrid Fusion Mamba Network for Efficient Multimodal Industrial Defect Detection（Guo Zhao, Liang Tan, Musong He, Qi Wu, 2025, Inf.）
DZAD: Diffusion-based Zero-shot Anomaly Detection（Tianrui Zhang, Liang Gao, Xinyu Li, Yiping Gao, 2025, No journal）
Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset（TsaiChing Ni, Zhen-Qi Chen, YuanFu Yang, 2025, ArXiv）
Zoom-Anomaly: Multimodal vision-Language fusion industrial anomaly detection with synthetic data（Jiaqi Li, Shuhuan Wen, Hamid Reza Karimi, 2026, Inf. Fusion）
LScAD: A Large–Small Model Collaboration Framework for Unsupervised Industrial Anomaly Detection（Shichen Qu, Xian Tao, Xinyi Gong, Zhen Qu, Mukesh Prasad, Fei Shen, Zhengtao Zhang, Guiguang Ding, 2025, IEEE Transactions on Instrumentation and Measurement）
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model（Haixin Wang, Xinlong Yang, Jianlong Chang, Di Jin, Jinan Sun, Shikun Zhang, Xiao Luo, Qi Tian, 2023, Advances in Neural Information Processing Systems 36）
Source-Free Domain Adaptation with Frozen Multimodal Foundation Model（Song Tang, Wenxin Su, Mao Ye, Xiatian Zhu, 2023, 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)）
Industrial Foundation Model（Lei Ren, Haiteng Wang, Jiabao Dong, Zidi Jia, Shixiang Li, Yuqing Wang, Y. Laili, Di-Wei Huang, Lin Zhang, Bohu Li, 2025, IEEE Transactions on Cybernetics）

工业实战应用：数字孪生、具身智能与鲁棒性提升

关注实际部署挑战，包括背景干扰消除、模态缺失的鲁棒性处理，以及集成数字孪生、AR、机器人平台的自动化检测系统。同时包含针对电网、PCBA、光伏等特定行业的定制化方案与数据集构建。

Industrial Anomaly Detection Under Background Clutter: A Foreground Extraction Study with RGB and 3D Data（GiBeom Kim, Hyejin Kim, 2025, 2025 16th International Conference on Information and Communication Technology Convergence (ICTC)）
Modality-Resilient Multimodal Industrial Anomaly Detection via Cross-Modal Knowledge Transfer and Dynamic Edge-Preserving Voxelization（Jiahui Xu, Jian Yuan, Mingrui Yang, Weishu Yan, 2025, Sensors (Basel, Switzerland)）
Enhanced Crack Segmentation Using Meta’s Segment Anything Model with Low-Cost Ground Truths and Multimodal Prompts（T. Muturi, Y. Adu-Gyamfi, 2025, Transportation Research Record）
Real-time robotic teleoperation for pavement pothole segmentation, quantification, and localization using multimodal sensing and efficient multi-scale attention-enhanced edge deep learning（Xi Hu, Rayan H. Assaad, 2026, Automation in Construction）
Three-dimensional inspection method for striped steel stockpiles（Kunpeng Wang, Lin Xu, 2025, Proceedings of the 2025 2nd International Conference on Modeling, Natural Language Processing and Machine Learning）
UniPCB: A Unified Vision-Language Benchmark for Open-Ended PCB Quality Inspection（Fuxiang Sun, Xi Jiang, Jiansheng Wu, Haigang Zhang, Feng Zheng, Jinfeng Yang, 2026, ArXiv）
A Method for 3D Printing Defect Detection Based on Multimodal Large Language Models（Bin Li, Yuzhong Cao, Runqi Chen, Yanzhu Chen, Yulin Ma, Haotian Cui, 2025, 2025 3rd International Conference on Intelligent Perception and Computer Vision (CIPCV)）
Bayesian network-based multimodal large model optimization of speech text and its fault prediction capability in power industry（Haitao Yu, Xuqiang Wang, ✉. J. Zheng, Tianyi Liu, Yongdi Bao, 2025, Journal of Combinatorial Mathematics and Combinatorial Computing）
Adaptive Digital Twin Systems with AR Interaction for Resilient and Sustainable Industrial Operations（G. Gayathri, G. Fathima, Professor Head, 2025, 2025 6th International Conference on Electronics and Sustainable Communication Systems (ICESC)）
Hybrid Rule-Based Classification and Defect Detection System Using Insert Steel Multi-3D Matching（Soon-Woo Kwon, H. Park, Seungmin Baek, Min Young Kim, 2025, Electronics）
A Streamlined System for Multimodal Industrial Anomaly Detection via 2D and 3D Feature Fusion（Wenbing Zhu, Mingmin Chi, Bo Peng, 2025, Proceedings of the 33rd ACM International Conference on Multimedia）
Multimodal Segmentation for Photovoltaic Module Defect Detection（Xinyi He, Jianjun Tan, Tao Hu, Li Zhu, 2025, IEEE Access）
PCAD: A Real-World Dataset for 6D Pose Industrial Anomaly Detection（Robert F. Maack, Lars Thun, Thomas Liang, Hasan Tercan, Tobias Meisen, 2025, 2025 IEEE/CVF Winter Conference on Applications of Computer Vision Workshops (WACVW)）
Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection（Wenbing Zhu, Lidong Wang, Ziqing Zhou, Chengjie Wang, Yurui Pan, Ruoyi Zhang, Zhuhao Chen, Linjie Cheng, Bin-Bin Gao, Jiangning Zhang, Zhenye Gan, Yuxie Wang, Yulong Chen, Shuguang Qian, Mingmin Chi, Bo Peng, Lizhuang Ma, 2025, 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)）
A Comprehensive Survey for Real-World Industrial Defect Detection: Challenges, Approaches, and Prospects（Yuqi Cheng, Yunkang Cao, Haiming Yao, Wei Luo, Cheng Jiang, Hui Zhang, Weiming Shen, 2025, ArXiv）
Digital Twins for Defect Detection in FDM 3D Printing Process（Chao Xu, Shengbin Lu, Yulin Zhang, Lu Zhang, Zhengyi Song, Huili Liu, Qingping Liu, Luquan Ren, 2025, Machines）
Zero-Shot Multi-Criteria Visual Quality Inspection for Semi-Controlled Industrial Environments via Real-Time 3D Digital Twin Simulation（Jose Moises Araya-Martinez, Gautham Mohan, Kenichi Hayakawa Bolanos, Roberto Mendieta, Sarvenaz Sardari, Jens Lambrecht, Jörg Krüger, 2025, ArXiv）
AN INDUSTRIAL-GRADE ROBOTIC PLATFORM FOR PCBA OPTICAL INSPECTION INTEGRATING CONVOLUTIONAL NEURAL NETWORKS AND PHOTOGRAMMETRY（Julio Hiago de Souza, Ilmar Duarte dos Reis, 2025, Revista ft）
Embodied Intelligence Toward Future Smart Manufacturing in the Era of AI Foundation Model（Lei Ren, Jiabao Dong, Shuai Liu, Lin Zhang, Lihui Wang, 2025, IEEE/ASME Transactions on Mechatronics）
Remote Human-Robot Interaction in Industrial Inspection System Based on Vision-Language Models（X. Lan, Litao Zhang, Ping Huang, Haojie Huang, Zhezhuang Xu, 2025, 2025 40th Youth Academic Annual Conference of Chinese Association of Automation (YAC)）
Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory（Yuxuan Lin, Hanjing Yan, Xuan Tong, Yang Chang, Huanzhen Wang, Ziheng Zhou, Shuyong Gao, Yan Wang, Wenqiang Zhang, 2025, ArXiv）
Concurrent historical data clustering and common feature learning for new-mode zero-shot industrial anomaly detection（Kai Wang, Xinlong Yuan, Xun Lang, Xiaofeng Yuan, Jie Han, Yalin Wang, 2026, Eng. Appl. Artif. Intell.）
Advances in Electrical Grid Assets Inspection: Exploring Multimodal Large Language Models（P. Rocha, Fernando Lopes, Luís A. da Silva Cruz, 2025, 2025 25th International Conference on Digital Signal Processing (DSP)）

多模态工业异常检测

多模态工业异常检测正经历从“感知融合”到“认知推理”的范式转移。研究重点已从单纯的RGB-D特征重建，转向利用VLM/MLLM实现零样本泛化与可解释性逻辑分析。新型架构如Mamba和扩散模型的引入进一步提升了检测效率与生成质量，而数字孪生与具身智能的集成则标志着该技术正加速向自动化产线的实战部署跨越。

共 105 篇文献，5 个研究方向

多源模态融合与3D几何特征增强

该组研究侧重于RGB图像与3D点云、深度图或表面法向量的深度整合。通过特征级融合、双向重建、跨模态蒸馏及频率对齐等机制，利用模态间的互补性捕捉微小形变或复杂空间结构的异常，解决单一模态信息不足的问题。相关文献: Chunshui Wang et. al, 2026 等 25 篇文献

基于视觉语言模型（VLM）的零样本与少样本检测

此类文献利用预训练模型（如CLIP）的跨模态对齐能力，通过提示工程（Prompt Engineering）、多尺度感知、属性感知或特征解耦技术，在无需或仅需极少量目标数据训练的情况下，实现工业缺陷的快速分类与定位。相关文献: Xurui Li et. al, 2025 等 29 篇文献

多模态大模型（MLLM）驱动的逻辑推理与可解释性检测

该组研究探索利用大语言模型（LLM）或多模态大模型（如GPT-4V, InternVL）进行端到端异常分析。通过引入思维链（CoT）、多智能体协作（Multi-agent）或检索增强生成（RAG），模型不仅能定位异常，还能提供逻辑解释和缺陷描述，处理复杂的逻辑异常。相关文献: Jinjin Zhang et. al, 2025 等 20 篇文献

前沿架构探索：Mamba、扩散模型与高效微调

这些研究引入了如状态空间模型（Mamba）以提升长序列处理效率，或利用扩散模型（Diffusion Models）的生成能力捕获复杂语义。同时涵盖了针对工业基础模型的高效微调（PEFT）和跨领域自适应方法。相关文献: Guo Zhao et. al, 2025 等 8 篇文献

工业实战应用：数字孪生、具身智能与鲁棒性提升

关注实际部署挑战，包括背景干扰消除、模态缺失的鲁棒性处理，以及集成数字孪生、AR、机器人平台的自动化检测系统。同时包含针对电网、PCBA、光伏等特定行业的定制化方案与数据集构建。相关文献: GiBeom Kim et. al, 2025 等 23 篇文献

总计105篇相关文献

Multimodal Industrial Anomaly Detection via Uni-Modal and Cross-Modal Fusion

基于单模态和跨模态融合的多模态工业异常检测

Hao Cheng, Jiaxiang Luo, Xianyong Zhang, 2025-IEEE Transactions on Industrial Informatics

Constructing comprehensive multimodal feature representations from RGB images (RGB) and point clouds (PT) in 2D–3D multimodal anomaly detection (MAD) methods is very important to reveal various types of industrial anomalies. For multimodal representations, most of the existing MAD methods often consider the explicit spatial correspondence between the modality-specific features extracted from RGB and PT through space-aligned fusion, while overlook the implicit interaction relationships between them. In this study, we propose a uni-modal and cross-modal fusion (UCF) method, which comprehensively incorporates the implicit relationships within and between modalities in multimodal representations. Specifically, UCF first establishes uni-modal and cross-modal embeddings to capture intramodal and intermodal relationships through uni-modal reconstruction and cross-modal mapping. Then, an adaptive nonequal fusion method is proposed to develop fusion embeddings, with the aim of preserving the primary features and reducing interference of the uni-modal and cross-modal embeddings. Finally, uni-modal, cross-modal, and fusion embeddings are all collaborated to reveal anomalies existing in different modalities. Experiments conducted on the MVTec 3D-AD benchmark and the real-world surface mount inspection demonstrate that the proposed UCF outperforms existing approaches, particularly in precise anomaly localization.