AI Infra，Quantization

本报告综合了 AI Infra 与量化领域的全栈研究成果。核心趋势体现为：1) 算法层面，针对 LLM 离群值和 KV Cache 的专用量化技术已成为主流；2) 硬件层面，软硬协同设计正从传统的 FPGA/ASIC 转向更高效的存内计算（CIM）与混合精度架构；3) 架构层面，量化研究已从 Transformer 扩展至 Mamba、SNN 及扩散模型等新兴领域；4) 工程层面，自动化工具链与硬件感知的量化搜索（NAS）正在加速量化模型在边缘侧与移动端的工业化落地。整体研究呈现出从单一精度压缩向系统级能效优化的深度演进。

共 133 篇文献，7 个研究方向

大语言模型专用量化算法与离群值处理

该组文献针对 LLM 独特的激活值分布（Outliers）和内存瓶颈（KV Cache），提出了权重补偿、旋转变换（SpinQuant）、激活感知量化（AWQ）及平滑缩放等技术，旨在解决极低比特下的精度崩塌问题。相关文献: Tim Dettmers et. al, 2022 等 21 篇文献

软硬协同设计与专用硬件加速器架构

侧重于底层硬件实现，涵盖基于 FPGA、ASIC、NPU 及存内计算（CIM）的加速器设计。研究重点在于量化算子与硬件电路的深度耦合，如脉动阵列优化、低功耗 MAC 单元及针对 RRAM/忆阻器的新型架构。相关文献: Jie Peng et. al, 2022 等 38 篇文献

混合精度分配与自适应位宽搜索技术

探讨在不同层、块或 Token 粒度上应用不同位宽的策略。通过 Hessian 矩阵分析、神经架构搜索（NAS）或动态路由（如 MoE）来平衡模型精度与计算资源。相关文献: Jiajun Zhou et. al, 2023 等 17 篇文献

极低比特、非均匀量化与新型浮点格式

研究 FP8/FP4 等新型低比特浮点格式，以及 1-bit（二值化）、2-bit 或非均匀量化（如对数系统、加法幂次方），探索模型压缩的极限边界。相关文献: Léopold Cambier et. al, 2020 等 14 篇文献

新兴架构与特定模型（Mamba/SNN/扩散模型）的量化适配

针对非 Transformer 架构（如状态空间模型 Mamba）、脉冲神经网络（SNN）、扩散模型及图神经网络（GNN）的特殊计算模式进行的量化优化。相关文献: Aotao Wang et. al, 2025 等 10 篇文献

量化训练技术、鲁棒性分析与安全推理

涵盖量化感知训练（QAT）、训练期动态精度调整（CPT）以及量化对模型鲁棒性、隐私保护（防御成员推理攻击）和安全多方计算（MPC）的影响。相关文献: Mengzhao Chen et. al, 2025 等 11 篇文献

系统部署工具、性能评测与边缘落地实践

关注 AI Infra 的软件栈，包括自动化部署工具（Torch2Chip）、推理引擎评测（TensorRT）、能效评估框架（ArchTune）以及在医疗、通信、电商等垂直领域的落地表现。相关文献: Zhihang Yuan et. al, 2024 等 22 篇文献

总计180篇相关文献

ChatGPT与DeepSeek-R1比较研究：架构、推理能力与应用场景分析A Comparative Study of ChatGPT and DeepSeek-R1: Analysis of Architecture, Reasoning Capabilities, and Application Scenarios

李昌奎, 2025-Theory and Practice of Social Science

人工智能技术的飞速发展推动了大语言模型（LLM）的不断进步。在众多LLM中，OpenAI推出的ChatGPT和DeepSeek-AI开发的DeepSeek-R1尤为引人注目。ChatGPT基于GPT-4架构，具备强大的自然语言理解能力和广泛的应用场景，而DeepSeek-R1则通过强化学习方法优化推理能力，在数学推理和编程任务中展现了强劲的竞争力。本文基于DeepSeek-R1的最新研究成果，全面对比ChatGPT与DeepSeek-R1在模型架构、训练方法、推理能力、应用场景及开放性等方面的差异。研究发现，ChatGPT依赖监督微调（SFT）和基于人类反馈的强化学习（RLHF），在自然语言处理任务上表现突出，而DeepSeek-R1更倾向于通过强化学习优化推理能力，尤其在数学推理、代码生成等任务上表现优异。此外，ChatGPT采用闭源策略，主要用于商业应用，而DeepSeek-R1则采取开源模式，为研究社区和开发者提供更大的灵活性。本文的研究结果为人工智能研究人员和开发者提供了重要参考，以期促进LLM技术的发展，并为未来的大模型优化提供新思路。 The rapid development of artificial intelligence has driven the continuous advancement of large language models (LLMs). Among them, OpenAI's ChatGPT and DeepSeek-AI's DeepSeek-R1 have garnered significant attention. ChatGPT, built upon the GPT-4 architecture, demonstrates strong natural language understanding and wide-ranging applications, whereas DeepSeek-R1 leverages reinforcement learning techniques to optimize reasoning capabilities, excelling in mathematical reasoning and programming tasks. This paper, based on the latest research on DeepSeek-R1, provides a comprehensive comparison between ChatGPT and DeepSeek-R1 in terms of model architecture, training methods, reasoning capabilities, application scenarios, and openness. The study reveals that ChatGPT relies on supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF), making it highly effective in natural language processing tasks. In contrast, DeepSeek-R1 emphasizes reinforcement learning to enhance reasoning abilities, particularly excelling in mathematical reasoning and code generation tasks. Moreover, ChatGPT follows a closed-source approach, primarily for commercial use, while DeepSeek-R1 adopts an open-source model, offering greater flexibility for researchers and developers. This study provides valuable insights for AI researchers and developers, contributing to the advancement of LLM technology and future model optimization strategies.