视觉语言模型中的上下文先进压缩方式

启发式与学习型 Token 剪枝与筛选策略

该组文献聚焦于如何从冗余的视觉输入中识别并保留关键 Token。研究方法涵盖了基于信息论的无监督筛选、基于注意力权重的贪婪搜索以及端到端可学习的选择模块,旨在不改变模型核心架构的前提下减少输入规模。

动态自适应与复杂性感知压缩

此类研究强调压缩率应根据输入内容的复杂程度动态调整。通过引入复杂性预测器或进度编码机制,模型能够为简单的图像/帧分配较少的 Token,而为细节丰富的场景保留更多信息,实现效率与效果的平衡。

指令引导与任务驱动的精准压缩

这组论文提出压缩过程应由用户指令(文本)引导。通过计算文本语义与视觉 Token 的相关性,模型能够“按需”压缩,仅保留与当前问题或任务相关的视觉细节,特别适用于 VQA 和文本导向的视觉任务。

架构创新与跨模态交互模块优化

该组文献通过改进模型底层架构或连接器(Projector)来实现压缩。包括引入线性复杂度的 Mamba 架构、设计空间视觉聚合器(SVA)、层级化压缩模块以及变分信息补全等手段,从系统结构层面提升处理效率。

长上下文与视频序列的高效管理

针对长视频和超长上下文挑战,这些研究提出了特定的压缩方案,如 KV Cache 压缩、视觉摘要 Token(VST)以及时空特征的密集编码,旨在解决长序列带来的内存溢出和推理延迟问题。

特定领域应用与边缘设备部署优化

此类文献探讨了压缩技术在医疗影像(3D CT/MRI)、具身智能(机器人动作规划)以及边缘侧移动设备上的应用,强调在受限资源或高精度专业场景下的实用性。

压缩机制的评测基准与鲁棒性分析

随着压缩方法的激增,该组文献致力于建立统一的评测体系。研究内容包括揭示现有基准的局限性、提出针对压缩敏感度的评估框架,以及分析压缩过程对对抗攻击的鲁棒性影响。

基础理论与通用注意力演进

这部分文献包含 MLLM 的奠基性工作以及关于注意力机制演进的通用理论研究,为后续的 Token 压缩和效率优化提供了模型基础和理论启示。

视觉语言模型中的上下文先进压缩方式

本组论文展示了视觉语言模型(VLM)从追求规模向追求效率的范式转移。研究方向涵盖了从底层的 Token 剪枝与筛选、动态自适应压缩,到高层的指令引导压缩以及架构层面的根本创新。同时,针对长视频处理、特定领域(如医疗、具身智能)的应用优化,以及配套的评测基准与安全性分析,共同构成了当前视觉语言模型上下文压缩的完整技术版图。

38 篇文献,8 个研究方向
启发式与学习型 Token 剪枝与筛选策略
该组文献聚焦于如何从冗余的视觉输入中识别并保留关键 Token。研究方法涵盖了基于信息论的无监督筛选、基于注意力权重的贪婪搜索以及端到端可学习的选择模块,旨在不改变模型核心架构的前提下减少输入规模。相关文献: Xudong Tan et. al, 2025 等 6 篇文献
动态自适应与复杂性感知压缩
此类研究强调压缩率应根据输入内容的复杂程度动态调整。通过引入复杂性预测器或进度编码机制,模型能够为简单的图像/帧分配较少的 Token,而为细节丰富的场景保留更多信息,实现效率与效果的平衡。相关文献: Xiaoyang Guo et. al, 2025 等 4 篇文献
指令引导与任务驱动的精准压缩
这组论文提出压缩过程应由用户指令(文本)引导。通过计算文本语义与视觉 Token 的相关性,模型能够“按需”压缩,仅保留与当前问题或任务相关的视觉细节,特别适用于 VQA 和文本导向的视觉任务。相关文献: Shuai Li et. al, 2025 等 4 篇文献
架构创新与跨模态交互模块优化
该组文献通过改进模型底层架构或连接器(Projector)来实现压缩。包括引入线性复杂度的 Mamba 架构、设计空间视觉聚合器(SVA)、层级化压缩模块以及变分信息补全等手段,从系统结构层面提升处理效率。相关文献: Han Zhao et. al, 2025 等 7 篇文献
长上下文与视频序列的高效管理
针对长视频和超长上下文挑战,这些研究提出了特定的压缩方案,如 KV Cache 压缩、视觉摘要 Token(VST)以及时空特征的密集编码,旨在解决长序列带来的内存溢出和推理延迟问题。相关文献: Yan Shu et. al, 2025 等 5 篇文献
特定领域应用与边缘设备部署优化
此类文献探讨了压缩技术在医疗影像(3D CT/MRI)、具身智能(机器人动作规划)以及边缘侧移动设备上的应用,强调在受限资源或高精度专业场景下的实用性。相关文献: Che Liu et. al, 2024 等 5 篇文献
压缩机制的评测基准与鲁棒性分析
随着压缩方法的激增,该组文献致力于建立统一的评测体系。研究内容包括揭示现有基准的局限性、提出针对压缩敏感度的评估框架,以及分析压缩过程对对抗攻击的鲁棒性影响。相关文献: Chenfei Liao et. al, 2025 等 3 篇文献
基础理论与通用注意力演进
这部分文献包含 MLLM 的奠基性工作以及关于注意力机制演进的通用理论研究,为后续的 Token 压缩和效率优化提供了模型基础和理论启示。相关文献: Haotian Liu et. al, 2023 等 4 篇文献