大模型

扩展法则(Scaling Laws)与性能预测机理

该组论文研究大模型性能与计算量、参数量、数据量及推理成本之间的量化关系。涵盖了经典的Chinchilla最优配比、推理侧扩展法则、领域持续预训练的缩放规律,以及模型在事实记忆和下游任务表现上的预测模型。

混合专家架构(MoE)与高效模型设计

聚焦于通过架构创新提升模型容量与效率。重点包括MoE的稀疏激活机制、专家专门化优化、MoE与PEFT的结合(如X-LoRA、MoELoRA),以及针对线性时间序列建模的新型架构(如Mamba/SSM)。

参数高效微调(PEFT)与模型压缩技术

研究如何在极低资源消耗下实现模型适配。涵盖LoRA及其变体(DoRA、AdaLoRA)、Adapter、BitFit等技术,并探讨了微调过程中的安全性、隐私保护以及与结构化剪枝的结合。

垂直领域适配、知识工程与跨学科应用

展示大模型在特定专业领域的落地能力。重点涵盖医疗健康(BioBERT、临床知识编码)、代码评审、生物蛋白设计、化学增强、古籍处理及法律伦理挑战。

模型能力评估、涌现机理与提示工程

探讨大模型的通用智能表现。包括对GPT-4等模型的AGI火花分析、思维链(CoT)推理、零样本学习能力、真实性评估(TruthfulQA)以及模型作为评审者(LLM-as-a-judge)的新型评估范式。

训练基础设施、推理优化与弱监督学习

关注大模型从训练到部署的全生命周期优化。涉及流水线并行(GPipe)、KV缓存管理(vLLM)、推理卸载技术(Offloading),以及在低资源环境下的弱监督自训练与知识增强策略。

大模型

本报告综合了大模型领域的全方位研究进展:从理论层面的扩展法则(Scaling Laws)与涌现机理,到架构层面的混合专家模型(MoE)与线性复杂度模型创新;在应用技术上,涵盖了参数高效微调(PEFT)的演进及其在安全性、压缩方面的探索;在行业落地方面,详细展示了医疗、代码、生物等垂直领域的深度适配;最后,报告还关注了推理系统优化、训练基础设施以及弱监督学习等确保模型高效运行与持续进化的关键工程问题,构建了一个从底层理论到上层应用的完整技术生态图谱。

108 篇文献,6 个研究方向
扩展法则(Scaling Laws)与性能预测机理
该组论文研究大模型性能与计算量、参数量、数据量及推理成本之间的量化关系。涵盖了经典的Chinchilla最优配比、推理侧扩展法则、领域持续预训练的缩放规律,以及模型在事实记忆和下游任务表现上的预测模型。相关文献: Jordan Hoffmann et. al, 2022 等 17 篇文献
混合专家架构(MoE)与高效模型设计
聚焦于通过架构创新提升模型容量与效率。重点包括MoE的稀疏激活机制、专家专门化优化、MoE与PEFT的结合(如X-LoRA、MoELoRA),以及针对线性时间序列建模的新型架构(如Mamba/SSM)。相关文献: Jiamin Li et. al, 2023 等 19 篇文献
参数高效微调(PEFT)与模型压缩技术
研究如何在极低资源消耗下实现模型适配。涵盖LoRA及其变体(DoRA、AdaLoRA)、Adapter、BitFit等技术,并探讨了微调过程中的安全性、隐私保护以及与结构化剪枝的结合。相关文献: Han Zhou et. al, 2024 等 21 篇文献
垂直领域适配、知识工程与跨学科应用
展示大模型在特定专业领域的落地能力。重点涵盖医疗健康(BioBERT、临床知识编码)、代码评审、生物蛋白设计、化学增强、古籍处理及法律伦理挑战。相关文献: Qianqian Xie et. al, 2025 等 23 篇文献
模型能力评估、涌现机理与提示工程
探讨大模型的通用智能表现。包括对GPT-4等模型的AGI火花分析、思维链(CoT)推理、零样本学习能力、真实性评估(TruthfulQA)以及模型作为评审者(LLM-as-a-judge)的新型评估范式。相关文献: Sébastien Bubeck et. al, 2023 等 13 篇文献
训练基础设施、推理优化与弱监督学习
关注大模型从训练到部署的全生命周期优化。涉及流水线并行(GPipe)、KV缓存管理(vLLM)、推理卸载技术(Offloading),以及在低资源环境下的弱监督自训练与知识增强策略。相关文献: Woosuk Kwon et. al, 2023 等 15 篇文献