AI Infra,Quantization

大语言模型专用量化算法与离群值处理

该组文献针对 LLM 独特的激活值分布(Outliers)和内存瓶颈(KV Cache),提出了权重补偿、旋转变换(SpinQuant)、激活感知量化(AWQ)及平滑缩放等技术,旨在解决极低比特下的精度崩塌问题。

软硬协同设计与专用硬件加速器架构

侧重于底层硬件实现,涵盖基于 FPGA、ASIC、NPU 及存内计算(CIM)的加速器设计。研究重点在于量化算子与硬件电路的深度耦合,如脉动阵列优化、低功耗 MAC 单元及针对 RRAM/忆阻器的新型架构。

混合精度分配与自适应位宽搜索技术

探讨在不同层、块或 Token 粒度上应用不同位宽的策略。通过 Hessian 矩阵分析、神经架构搜索(NAS)或动态路由(如 MoE)来平衡模型精度与计算资源。

极低比特、非均匀量化与新型浮点格式

研究 FP8/FP4 等新型低比特浮点格式,以及 1-bit(二值化)、2-bit 或非均匀量化(如对数系统、加法幂次方),探索模型压缩的极限边界。

新兴架构与特定模型(Mamba/SNN/扩散模型)的量化适配

针对非 Transformer 架构(如状态空间模型 Mamba)、脉冲神经网络(SNN)、扩散模型及图神经网络(GNN)的特殊计算模式进行的量化优化。

量化训练技术、鲁棒性分析与安全推理

涵盖量化感知训练(QAT)、训练期动态精度调整(CPT)以及量化对模型鲁棒性、隐私保护(防御成员推理攻击)和安全多方计算(MPC)的影响。

系统部署工具、性能评测与边缘落地实践

关注 AI Infra 的软件栈,包括自动化部署工具(Torch2Chip)、推理引擎评测(TensorRT)、能效评估框架(ArchTune)以及在医疗、通信、电商等垂直领域的落地表现。

AI Infra,Quantization

本报告综合了 AI Infra 与量化领域的全栈研究成果。核心趋势体现为:1) 算法层面,针对 LLM 离群值和 KV Cache 的专用量化技术已成为主流;2) 硬件层面,软硬协同设计正从传统的 FPGA/ASIC 转向更高效的存内计算(CIM)与混合精度架构;3) 架构层面,量化研究已从 Transformer 扩展至 Mamba、SNN 及扩散模型等新兴领域;4) 工程层面,自动化工具链与硬件感知的量化搜索(NAS)正在加速量化模型在边缘侧与移动端的工业化落地。整体研究呈现出从单一精度压缩向系统级能效优化的深度演进。

133 篇文献,7 个研究方向
大语言模型专用量化算法与离群值处理
该组文献针对 LLM 独特的激活值分布(Outliers)和内存瓶颈(KV Cache),提出了权重补偿、旋转变换(SpinQuant)、激活感知量化(AWQ)及平滑缩放等技术,旨在解决极低比特下的精度崩塌问题。相关文献: Tim Dettmers et. al, 2022 等 21 篇文献
软硬协同设计与专用硬件加速器架构
侧重于底层硬件实现,涵盖基于 FPGA、ASIC、NPU 及存内计算(CIM)的加速器设计。研究重点在于量化算子与硬件电路的深度耦合,如脉动阵列优化、低功耗 MAC 单元及针对 RRAM/忆阻器的新型架构。相关文献: Jie Peng et. al, 2022 等 38 篇文献
混合精度分配与自适应位宽搜索技术
探讨在不同层、块或 Token 粒度上应用不同位宽的策略。通过 Hessian 矩阵分析、神经架构搜索(NAS)或动态路由(如 MoE)来平衡模型精度与计算资源。相关文献: Jiajun Zhou et. al, 2023 等 17 篇文献
极低比特、非均匀量化与新型浮点格式
研究 FP8/FP4 等新型低比特浮点格式,以及 1-bit(二值化)、2-bit 或非均匀量化(如对数系统、加法幂次方),探索模型压缩的极限边界。相关文献: Léopold Cambier et. al, 2020 等 14 篇文献
新兴架构与特定模型(Mamba/SNN/扩散模型)的量化适配
针对非 Transformer 架构(如状态空间模型 Mamba)、脉冲神经网络(SNN)、扩散模型及图神经网络(GNN)的特殊计算模式进行的量化优化。相关文献: Aotao Wang et. al, 2025 等 10 篇文献
量化训练技术、鲁棒性分析与安全推理
涵盖量化感知训练(QAT)、训练期动态精度调整(CPT)以及量化对模型鲁棒性、隐私保护(防御成员推理攻击)和安全多方计算(MPC)的影响。相关文献: Mengzhao Chen et. al, 2025 等 11 篇文献
系统部署工具、性能评测与边缘落地实践
关注 AI Infra 的软件栈,包括自动化部署工具(Torch2Chip)、推理引擎评测(TensorRT)、能效评估框架(ArchTune)以及在医疗、通信、电商等垂直领域的落地表现。相关文献: Zhihang Yuan et. al, 2024 等 22 篇文献