视觉语言模型中的上下文先进压缩方式

启发式与学习型 Token 剪枝与筛选策略

该组文献聚焦于如何从冗余的视觉输入中识别并保留关键 Token。研究方法涵盖了基于信息论的无监督筛选、基于注意力权重的贪婪搜索以及端到端可学习的选择模块，旨在不改变模型核心架构的前提下减少输入规模。

TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models（Xudong Tan, Peng Ye, Chongjun Tu, Jianjian Cao, Yanzhao Yang, Lin Zhang, Dongzhan Zhou, Tao Chen, 2025, ArXiv.org）
FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding（Janghoon Cho, Jungsoo Lee, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi, 2025, ArXiv.org）
Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction（Shiyu Zhao, Zhenting Wang, Felix Juefei-Xu, Xide Xia, Miao Liu, Xiaofang Wang, Mingfu Liang, Ning Zhang, Dimitris Metaxas, Licheng Yu, 2024, arXiv (Cornell University)）
VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs（Junjie Zhu, Yurui Zhu, Xin Lü, Wenrui Yan, Dong Li, Kunlin Liu, Xueyang Fu, Zheng-Jun Zha, 2025, ArXiv.org）
HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit（Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen, 2026, arXiv (Cornell University)）
Simignore: Exploring and enhancing multimodal large model complex reasoning via similarity computation（Xiaofeng Zhang, Fanshuo Zeng, Chaochen Gu, 2024, Neural Networks）

动态自适应与复杂性感知压缩

此类研究强调压缩率应根据输入内容的复杂程度动态调整。通过引入复杂性预测器或进度编码机制，模型能够为简单的图像/帧分配较少的 Token，而为细节丰富的场景保留更多信息，实现效率与效果的平衡。

Adaptive-VoCo: Complexity-Aware Visual Token Compression for Vision-Language Models（Xiaoyang Guo, Keze Wang, 2025, arXiv (Cornell University)）
Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM（Han Wang, Yuxiang Nie, Yongjie Ye, Deng GuanYu, Yanjie Wang, Shuai Li, Haiyang Yu, Jinghui Lu, Can Huang, 2024, arXiv (Cornell University)）
LLaVA-Zip: Adaptive Visual Token Compression with Intrinsic Image Information（Ke Wang, Hong Xuan, 2024, arXiv (Cornell University)）
PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models（Chenyu Yang, Xuan Dong, Xiaolong Zhu, Weijie Su, Jiahao Wang, Hao Tian, Zhe Chen, Wenhai Wang, Lewei Lu, Jifeng Dai, 2025, No journal）

指令引导与任务驱动的精准压缩

这组论文提出压缩过程应由用户指令（文本）引导。通过计算文本语义与视觉 Token 的相关性，模型能够“按需”压缩，仅保留与当前问题或任务相关的视觉细节，特别适用于 VQA 和文本导向的视觉任务。

QG-VTC: Question-Guided Visual Token Compression in MLLMs for Efficient VQA（Shuai Li, Jian Xu, Xiaohui Li, Chao Deng, Lujun Huang, 2025, ArXiv.org）
FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression（Yuke Zhu, Chi Xie, Shuang Liang, Bo Zheng, Sheng Guo, 2024, arXiv (Cornell University)）
Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck（Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos, 2025, ArXiv.org）
FCoT-VL:Advancing Text-oriented Large Vision-Language Models with Efficient Visual Token Compression（Jianjian Li, Junquan Fan, Feng Tang, Gang Huang, Shitao Zhu, Songlin Liu, Nian Xie, Wulong Liu, Yong Liao, 2025, ArXiv.org）

架构创新与跨模态交互模块优化

该组文献通过改进模型底层架构或连接器（Projector）来实现压缩。包括引入线性复杂度的 Mamba 架构、设计空间视觉聚合器（SVA）、层级化压缩模块以及变分信息补全等手段，从系统结构层面提升处理效率。

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference（Han Zhao, M. Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang, 2025, Proceedings of the AAAI Conference on Artificial Intelligence）
DiViCo: Disentangled Visual Token Compression for Efficient Large Vision-Language Model（Xin Wang, Zirui Pan, Hong Chen, Wenwu Zhu, 2025, IEEE Transactions on Circuits and Systems for Video Technology）
LLaVA-UHD: An LMM Perceiving Any Aspect Ratio and High-Resolution Images（Zonghao Guo, Ruyi Xu, Yuan Yao, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat‐Seng Chua, Zhiyuan Liu, Gao Huang, 2024, Lecture notes in computer science）
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs（Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, A. Wang, Rob Fergus, Yann LeCun, Saining Xie, 2024, arXiv (Cornell University)）
BUS : Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization（Chaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Songfang Huang, 2023, No journal）
BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization（Chaoya Jiang, Haiyang Xu, Wei Ye, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Songfang Huang, 2023, arXiv (Cornell University)）
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression（Dong Lu, Yuyao Sun, Zilu Zhang, Leping Huang, Jianwen Zeng, Min Shu, Huo Cao, 2025, arXiv (Cornell University)）

长上下文与视频序列的高效管理

针对长视频和超长上下文挑战，这些研究提出了特定的压缩方案，如 KV Cache 压缩、视觉摘要 Token（VST）以及时空特征的密集编码，旨在解决长序列带来的内存溢出和推理延迟问题。

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding（Yan Shu, Zheng Liu, Peitian Zhang, Minghao Qin, Junjie Zhou, Zhengyang Liang, Tiejun Huang, Bo Zhao, 2025, No journal）
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding（Yongxin Guo, Jingyu Liu, Mingda Li, Dingxin Cheng, Xiaoying Tang, Dianbo Sui, Qingbin Liu, Xi Chen, Kang Zhao, 2025, Proceedings of the AAAI Conference on Artificial Intelligence）
LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference（Zhongwei Wan, Ziang Wu, Che Liu, Jinfa Huang, Zhihong Zhu, Peng Jin, Longyue Wang, Yuan Li, 2024, No journal）
VisCompConText: Scaling Multi-Modal Contexts via Visual Token Compression and Language Model Guidance（Wenjun Huang, Zhengzhuo Wang, Jiakai Pan, Yuhe Wang, Shengzhi Shen, Jiahao Tang, Cancan Zhou, Jianguo Hu, 2025, Frontiers in artificial intelligence and applications）
LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval（Jianping Li, 2024, No journal）

特定领域应用与边缘设备部署优化

此类文献探讨了压缩技术在医疗影像（3D CT/MRI）、具身智能（机器人动作规划）以及边缘侧移动设备上的应用，强调在受限资源或高精度专业场景下的实用性。

Argus: Benchmarking and Enhancing Vision-Language Models for 3D Radiology Report Generation（Che Liu, Zhongwei Wan, Yuqi Wang, Hui Shen, Haozhe Wang, Kangyu Zheng, Mi Zhang, Rossella Arcucci, 2024, arXiv (Cornell University)）
TokenSeg: Efficient 3D Medical Image Segmentation via Hierarchical Visual Token Compression（Sen Zeng, Hong Zhou, Zheng Zhu, Yang Liu, 2026, arXiv (Cornell University)）
Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation（Gao, Juntao, Ye, Feiyang, Zhang, Jing, Qian, Wenjing, 2025, arXiv (Cornell University)）
Mini-InternVL: a flexible-transfer pocket multi-modal model with 5% parameters and 90% performance（Zhangwei Gao, Zhe Chen, Erfei Cui, Yiming Ren, Weiyun Wang, Jinguo Zhu, Hao Tian, Shenglong Ye, Junjun He, Xiaolong Zhu, Lewei Lu, Tong Lü, Yu Qiao, Jifeng Dai, Wenhai Wang, 2024, Visual Intelligence）
Efficient GPT-4V level multimodal large language model for deployment on edge devices（Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hanlong Zhu, Tianchi Cai, Chi Chen, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, R. Zhou, Zhixiang Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Han Xu, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun, 2025, Nature Communications）

压缩机制的评测基准与鲁棒性分析

随着压缩方法的激增，该组文献致力于建立统一的评测体系。研究内容包括揭示现有基准的局限性、提出针对压缩敏感度的评估框架，以及分析压缩过程对对抗攻击的鲁棒性影响。

Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods（Chenfei Liao, Wensong Wang, Zichen Wen, Zheng Xu, Yiyu Wang, Hong-Ju He, Yuanhuiyi Lyu, Lutao Jiang, Xin Zou, Yuqian Fu, Bin Ren, Linfeng Zhang, Xuming Hu, 2025, ArXiv.org）
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models（Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Minmin Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui, 2025, ArXiv.org）
On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression（Xinwei Zhang, Hangcheng Liu, Li Bai, Hao Wang, Qingqing Ye, Tianwei Zhang, Haibo Hu, 2026, ArXiv.org）

基础理论与通用注意力演进

这部分文献包含 MLLM 的奠基性工作以及关于注意力机制演进的通用理论研究，为后续的 Token 压缩和效率优化提供了模型基础和理论启示。

Visual Instruction Tuning（Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee, 2023, arXiv (Cornell University)）
Evolving Attention with Residual Convolutions（Yujing Wang, Yaming Yang, Jiangang Bai, Mingliang Zhang, Jing Bai, Jing Yu, Ce Zhang, Gao Huang, Yunhai Tong, 2021, arXiv (Cornell University)）
Convolution-Enhanced Evolving Attention Networks（Yujing Wang, Yaming Yang, Zhuo Li, Jiangang Bai, Mingliang Zhang, Xiangtai Li, Jing Yu, Ce Zhang, Gao Huang, Yunhai Tong, 2023, IEEE Transactions on Pattern Analysis and Machine Intelligence）
Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)（Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan Yuille, 2014, arXiv (Cornell University)）

视觉语言模型中的上下文先进压缩方式

本组论文展示了视觉语言模型（VLM）从追求规模向追求效率的范式转移。研究方向涵盖了从底层的 Token 剪枝与筛选、动态自适应压缩，到高层的指令引导压缩以及架构层面的根本创新。同时，针对长视频处理、特定领域（如医疗、具身智能）的应用优化，以及配套的评测基准与安全性分析，共同构成了当前视觉语言模型上下文压缩的完整技术版图。

共 38 篇文献，8 个研究方向

启发式与学习型 Token 剪枝与筛选策略

该组文献聚焦于如何从冗余的视觉输入中识别并保留关键 Token。研究方法涵盖了基于信息论的无监督筛选、基于注意力权重的贪婪搜索以及端到端可学习的选择模块，旨在不改变模型核心架构的前提下减少输入规模。相关文献: Xudong Tan et. al, 2025 等 6 篇文献

动态自适应与复杂性感知压缩

此类研究强调压缩率应根据输入内容的复杂程度动态调整。通过引入复杂性预测器或进度编码机制，模型能够为简单的图像/帧分配较少的 Token，而为细节丰富的场景保留更多信息，实现效率与效果的平衡。相关文献: Xiaoyang Guo et. al, 2025 等 4 篇文献

指令引导与任务驱动的精准压缩

这组论文提出压缩过程应由用户指令（文本）引导。通过计算文本语义与视觉 Token 的相关性，模型能够“按需”压缩，仅保留与当前问题或任务相关的视觉细节，特别适用于 VQA 和文本导向的视觉任务。相关文献: Shuai Li et. al, 2025 等 4 篇文献

架构创新与跨模态交互模块优化

该组文献通过改进模型底层架构或连接器（Projector）来实现压缩。包括引入线性复杂度的 Mamba 架构、设计空间视觉聚合器（SVA）、层级化压缩模块以及变分信息补全等手段，从系统结构层面提升处理效率。相关文献: Han Zhao et. al, 2025 等 7 篇文献

长上下文与视频序列的高效管理

针对长视频和超长上下文挑战，这些研究提出了特定的压缩方案，如 KV Cache 压缩、视觉摘要 Token（VST）以及时空特征的密集编码，旨在解决长序列带来的内存溢出和推理延迟问题。相关文献: Yan Shu et. al, 2025 等 5 篇文献

特定领域应用与边缘设备部署优化

此类文献探讨了压缩技术在医疗影像（3D CT/MRI）、具身智能（机器人动作规划）以及边缘侧移动设备上的应用，强调在受限资源或高精度专业场景下的实用性。相关文献: Che Liu et. al, 2024 等 5 篇文献

压缩机制的评测基准与鲁棒性分析

随着压缩方法的激增，该组文献致力于建立统一的评测体系。研究内容包括揭示现有基准的局限性、提出针对压缩敏感度的评估框架，以及分析压缩过程对对抗攻击的鲁棒性影响。相关文献: Chenfei Liao et. al, 2025 等 3 篇文献

基础理论与通用注意力演进

这部分文献包含 MLLM 的奠基性工作以及关于注意力机制演进的通用理论研究，为后续的 Token 压缩和效率优化提供了模型基础和理论启示。相关文献: Haotian Liu et. al, 2023 等 4 篇文献

总计38篇相关文献

DiViCo: Disentangled Visual Token Compression for Efficient Large Vision-Language Model

DiViCo：解耦视觉标记压缩以提高高效的大视觉-语言模型

Xin Wang, Zirui Pan, Hong Chen 等, 2025-IEEE Transactions on Circuits and Systems for Video Technology

Large Vision-Language Models have drawn much attention and become increasingly applicable in complicated multimodal tasks such as visual question answering, video grounding, etc. However, it still suffers from inefficiency problem during the inference stage due to the computational overhead brought by the large number of visual tokens. Existing works either utilize an attention score (or visual-text relevance) to filter out the less significant visual tokens, or insert learnable projection layers to directly compress the tokens, which neglects the informative details in visual signals and introduces information loss, resulting in poor generalizability to test data. To solve these problems, in this paper we propose a novel Disentangled Visual Token Compression module, i.e., DiViCo, that effectively compresses the visual tokens and maintains good performance simultaneously. In concrete, we first select the top τ% visual tokens according to their average attention scores, then predict the gap between these selected tokens and the original information by employing the chosen tokens in a disentangled and variational manner. Specifically, we model the mean and variance, sampling the predicted gap from the Gaussian prior. We further keep the informativeness of the compressed visual tokens via KL divergence, which ensures the generalizability of the model. Extensive experiments demonstrate the advantage of our proposed DiViCo module against several state-of-the-art baselines over various real-world datasets. Most notably, LLaVA-v1.5-7b equipped with DiViCo is able to reduce 67.7% FLOPs and save 51.7% time while maintaining 95.6% of the accuracy for LLaVA-v1.5-7b without any compression.