大语言模型训练与微调工具及平台的技术研究

参数高效微调(PEFT)的算法演进与理论机制

该组文献聚焦于如何在有限计算资源下,通过改进LoRA及其变体(如DoRA、LoRA-Dropout)实现模型的高效适配。研究涵盖了PEFT的系统综述、参数更新的数学原理,以及混合专家模型(MoE)与LoRA的结合,旨在提升微调的理论上限与泛化能力。

模型压缩、量化微调与边缘设备部署优化

此类文献探讨了在大规模语言模型训练与推理过程中的资源优化技术。核心包括量化感知微调(QA-LoRA、QLoRA、IR-QLoRA)、权重剪枝(LoraPrune)、离群值感知量化(OWQ)以及针对6G/MEC等边缘计算场景的轻量化部署方案。

综合性微调基础设施、分布式架构与训推一体化平台

这组文献关注大模型工程化落地。研究涵盖了如LLaMA-Factory、SWIFT等一站式训练框架,集成Triton内核提升吞吐量的方法,以及区块链去中心化训练(AIArena)、云边协同自动化平台和各种分布式训练中间件。

人类偏好对齐、反馈学习与安全治理体系

本组文献研究如何使模型符合人类预期并确保安全性。涉及DPO、KTO、RLAIF等对齐算法,解决奖励过度优化(ROO)的方案,以及通过差分隐私(DP)、联邦学习(FedLLM)保护训练数据,并建立针对多模态和实验室安全的红队测试基准。

知识增强、工具学习与复杂专项能力扩展

该组研究旨在扩展LLM的基础边界。包括利用合成数据进行知识注入(Ski)、增强外部工具调用(ToolLLM)、处理图结构数据(GraphGPT)、检索增强生成(RAG)、多模态能力融合以及长文本处理等任务的适配研究。

垂直行业领域的定制化微调与应用实践

这些文献展示了LLM在医疗、金融、法律、制造、交通、代码评审及推荐系统等特定领域的深度应用。重点研究如何利用领域特定数据和专业指令进行微调,以提升模型在专业逻辑、术语理解和行业任务中的性能表现。

大语言模型训练与微调工具及平台的技术研究

最终分组结果全面勾勒了大语言模型从底层算法到顶层应用的技术全景图。研究体系分为六大核心:以PEFT及其量化版本为代表的高效算法层;以分布式和训推一体化平台为代表的基础设施层;以人类偏好对齐、隐私保护和安全红队为代表的治理层;以多模态、工具调用和RAG为代表的能力扩展层;以及涵盖医疗、金融、制造等多个行业的垂直应用层。这体现了LLM正处于从“通用大模型”向“高效、安全、专业且具备复杂交互能力的工业级工具”转型的关键阶段。

85 篇文献,6 个研究方向
参数高效微调(PEFT)的算法演进与理论机制
该组文献聚焦于如何在有限计算资源下,通过改进LoRA及其变体(如DoRA、LoRA-Dropout)实现模型的高效适配。研究涵盖了PEFT的系统综述、参数更新的数学原理,以及混合专家模型(MoE)与LoRA的结合,旨在提升微调的理论上限与泛化能力。相关文献: Robert Belanec et. al, 2025 等 9 篇文献
模型压缩、量化微调与边缘设备部署优化
此类文献探讨了在大规模语言模型训练与推理过程中的资源优化技术。核心包括量化感知微调(QA-LoRA、QLoRA、IR-QLoRA)、权重剪枝(LoraPrune)、离群值感知量化(OWQ)以及针对6G/MEC等边缘计算场景的轻量化部署方案。相关文献: Yuhui Xu et. al, 2023 等 8 篇文献
综合性微调基础设施、分布式架构与训推一体化平台
这组文献关注大模型工程化落地。研究涵盖了如LLaMA-Factory、SWIFT等一站式训练框架,集成Triton内核提升吞吐量的方法,以及区块链去中心化训练(AIArena)、云边协同自动化平台和各种分布式训练中间件。相关文献: Yaowei Zheng et. al, 2024 等 12 篇文献
人类偏好对齐、反馈学习与安全治理体系
本组文献研究如何使模型符合人类预期并确保安全性。涉及DPO、KTO、RLAIF等对齐算法,解决奖励过度优化(ROO)的方案,以及通过差分隐私(DP)、联邦学习(FedLLM)保护训练数据,并建立针对多模态和实验室安全的红队测试基准。相关文献: Zhanhui Zhou et. al, 2024 等 17 篇文献
知识增强、工具学习与复杂专项能力扩展
该组研究旨在扩展LLM的基础边界。包括利用合成数据进行知识注入(Ski)、增强外部工具调用(ToolLLM)、处理图结构数据(GraphGPT)、检索增强生成(RAG)、多模态能力融合以及长文本处理等任务的适配研究。相关文献: Jiaxin Zhang et. al, 2024 等 12 篇文献
垂直行业领域的定制化微调与应用实践
这些文献展示了LLM在医疗、金融、法律、制造、交通、代码评审及推荐系统等特定领域的深度应用。重点研究如何利用领域特定数据和专业指令进行微调,以提升模型在专业逻辑、术语理解和行业任务中的性能表现。相关文献: Songhua Yang et. al, 2024 等 27 篇文献