大语言模型训练与微调工具及平台的技术研究

参数高效微调（PEFT）的算法演进与理论机制

该组文献聚焦于如何在有限计算资源下，通过改进LoRA及其变体（如DoRA、LoRA-Dropout）实现模型的高效适配。研究涵盖了PEFT的系统综述、参数更新的数学原理，以及混合专家模型（MoE）与LoRA的结合，旨在提升微调的理论上限与泛化能力。

PEFT-Factory: Unified Parameter-Efficient Fine-Tuning of Autoregressive Large Language Models（Robert Belanec, Ivan Srba, Mária Bieliková, 2025, ArXiv.org）
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention（Renrui Zhang, Jiaming Han, Aojun Zhou, Xiangfei Hu, Shilin Yan, Pan Lu, Hongsheng Li, Peng Gao, Yu Qiao, Qiao, Yu, 2023, arXiv (Cornell University)）
Full Parameter Fine-tuning for Large Language Models with Limited Resources（Kai Lv, Yuqing Yang, Tengxiao Liu, Qipeng Guo, Xipeng Qiu, 2024, No journal）
IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT（Junchen Fu, Xuri Ge, Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Jie Wang, Joemon M. Jose, 2024, No journal）
Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment（Lingling Xu, Haoran Xie, S. Joe Qin, Xiaohui Tao, Fu Lee Wang, 2023, arXiv (Cornell University)）
DoRA: Weight-Decomposed Low-Rank Adaptation（Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang‐Ting Cheng, Min-Hung Chen, 2024, arXiv (Cornell University)）
LoRA Dropout as a Sparsity Regularizer for Overfitting Control（Lin Yang, Xinyu Ma, Xu Chu, Yujie Jin, Zhibang Yang, Yasha Wang, Hong Mei, 2024, arXiv (Cornell University)）
Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning（Vladislav Lialin, Vijeta Deshpande, Anna Rumshisky, Rumshisky, Anna, 2023, arXiv (Cornell University)）
When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications（Qidong Liu, Xian Wu, Xiangyu Zhao, Yuanshao Zhu, Derong Xu, Feng Tian, Yefeng Zheng, 2024, No journal）

模型压缩、量化微调与边缘设备部署优化

此类文献探讨了在大规模语言模型训练与推理过程中的资源优化技术。核心包括量化感知微调（QA-LoRA、QLoRA、IR-QLoRA）、权重剪枝（LoraPrune）、离群值感知量化（OWQ）以及针对6G/MEC等边缘计算场景的轻量化部署方案。

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models（Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian, 2023, arXiv (Cornell University)）
LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models（Yixiao Li, Yifan Yu, Liang Chen, Pengcheng He, Nikos Karampatziakis, Weizhu Chen, Tuo Zhao, 2023, arXiv (Cornell University)）
ReALLM: A general framework for LLM compression and fine-tuning（Louis Leconte, Lisa Bedin, Van Minh Nguyen, Éric Moulines, 2024, arXiv (Cornell University)）
Pushing Large Language Models to the 6G Edge: Vision, Challenges, and Opportunities（Zheng Lin, Guanqiao Qu, Qiyuan Chen, Xianhao Chen, Zhe Chen, Kaibin Huang, 2023, arXiv (Cornell University)）
QLoRA: Efficient Finetuning of Quantized LLMs（Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023, arXiv (Cornell University)）
Accurate LoRA-Finetuning Quantization of LLMs via Information Retention（Haotong Qin, Xudong Ma, Xingyu Zheng, Xiaoyang Li, Yang Zhang, Shouda Liu, Jie Luo, Xianglong Liu, Michele Magno, 2024, arXiv (Cornell University)）
OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models（Changhun Lee, Jungyu Jin, Taesu Kim, Hyungjun Kim, Eunhyeok Park, 2024, Proceedings of the AAAI Conference on Artificial Intelligence）
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning（Mingyang Zhang, H. S. Chen, Chunhua Shen, Zhen Yang, Linlin Ou, Xinyi Yu, Bohan Zhuang, 2024, No journal）

综合性微调基础设施、分布式架构与训推一体化平台

这组文献关注大模型工程化落地。研究涵盖了如LLaMA-Factory、SWIFT等一站式训练框架，集成Triton内核提升吞吐量的方法，以及区块链去中心化训练（AIArena）、云边协同自动化平台和各种分布式训练中间件。

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models（Yaowei Zheng, Richong Zhang, Junhao Zhang, YeYanhan YeYanhan, Zheyan Luo, 2024, No journal）
360-LLaMA-Factory: Plug & Play Sequence Parallelism for Long Post-Training（Hejian Zou, Xiaowei Lv, Shi Jia, Chunlin Li, Xianmin Gong, Xiangzheng Zhang, 2025, ArXiv.org）
SWIFT: A Scalable Lightweight Infrastructure for Fine-Tuning（Yuze Zhao, Jintao Huang, Jinghan Hu, Xingjun Wang, Yunlin Mao, Daoze Zhang, Zeyinzi Jiang, Zhikai Wu, Baole Ai, Ang Wang, Wenmeng Zhou, Yingda Chen, 2025, Proceedings of the AAAI Conference on Artificial Intelligence）
LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models（Zhiqiang Hu, Lei Wang, Yihuai Lan, Wanyu Xu, Ee‐Peng Lim, Lidong Bing, Xing Xu, Soujanya Poria, Roy Lee, 2023, No journal）
The Falcon Series of Open Language Models（Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Daniel Hesslow, Julien Launay, Quentin Malartic, Daniele Mazzotta, Badreddine Noune, B. Pannier, Guilherme Penedo, Pannier, Baptiste, Penedo, Guilherme, 2023, arXiv (Cornell University)）
STAF-LLM: A scalable and task-adaptive fine-tuning framework for large language models in medical domain（Tianhan Xu, Ling Chen, Zhe Hu, Bin Li, 2025, Expert Systems with Applications）
Optimizing throughput of Seq2Seq model training on the IPU platform for AI-accelerated CFD simulations（Paweł Rościszewski, Adam Krzywaniak, Sergio Iserte, Krzysztof Rojek, Paweł Gepner, 2023, Future Generation Computer Systems）
Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-tuning（Bei Ouyang, Shengyuan Ye, Liekang Zeng, Tianyi Qian, Jingyi Li, Xu Chen, 2024, No journal）
An AI Model Automatic Training and Deployment Platform Based on Cloud Edge Architecture for DC Energy-Saving（Chunfang Li, Zhou Guo, Xingmin He, Fei Hu, Weiye Meng, 2023, No journal）
A Scalable AI Training Platform for Remote Sensing Data（Hendrik M. Würz, Kevin Kocon, Barbara Pedretscher, Eva Klien, Eva Eggeling, 2023, AGILE GIScience Series）
Liger Kernel: Efficient Triton Kernels for LLM Training（Byron, Hsu -, Yun Dai, Vignesh Kothapalli, Qingquan Song, Shao Tang, Siyu Zhu, Sadanori Shimizu, Shivam Sahni, Haichun Ning, 2024, arXiv (Cornell University)）
训推一体平台架构设计与关键技术研究（梁秉豪, 张传刚, 2023, 计算机科学与应用）

人类偏好对齐、反馈学习与安全治理体系

本组文献研究如何使模型符合人类预期并确保安全性。涉及DPO、KTO、RLAIF等对齐算法，解决奖励过度优化（ROO）的方案，以及通过差分隐私（DP）、联邦学习（FedLLM）保护训练数据，并建立针对多模态和实验室安全的红队测试基准。

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization（Zhanhui Zhou, Jie Liu, Jing Shao, Xiangyu Yue, Chao Yang, Wanli Ouyang, Yu Qiao, 2024, No journal）
KTO: Model Alignment as Prospect Theoretic Optimization（Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela, 2024, arXiv (Cornell University)）
Countering Reward Over-Optimization in LLM with Demonstration-Guided Reinforcement Learning（Mathieu Rita, Florian Strub, Rahma Chaabouni, Paul Michel, Emmanuel Dupoux, Olivier Pietquin, 2024, No journal）
Kimi k1.5: Scaling Reinforcement Learning with LLMs（Kimi Team, Angang Du, Bofei Gao, Bowei Xing, C. H. Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chengde Liao, C.A. Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Gang Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao-Tsung Yang, Hao Zhang, Haotian Yao, H. W. Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, J. Zhao, Jin Zhang, Junming Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengjiao Dong, Nan Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Shifeng Cao, Siying Huang, Tao Jiang, Weihao Gao, Xiong Weijun, W. He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, X. H. Zhou, Xuehai Pan, Y F Young Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Y. Liu, Yiming Qin, Yifeng Liu, Yingguo Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Z B Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Ziting Wang, Zhilin Yang, Zhiqi Huang, Zhiyi Huang, Zhao Xu, Zonghan Yang, Yang, Zonghan, Lin, Zongyu, 2025, ArXiv.org）
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond（Liang Wen, Yiyu Cai, Fengping Xiao, Xin He, Qi An, Zhaojun Duan, Y. Y. Du, Junchen Liu, Tanglifu Tanglifu, Xiaowei Lv, Hejian Zou, Yongchao Deng, Shi Jia, Xiangzheng Zhang, 2025, No journal）
RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback（Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Cărbune, Abhinav Rastogi, Carbune, Victor, Rastogi, Abhinav, Prakash, Sushant, 2023, arXiv (Cornell University)）
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation（Guanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Ji-Rong Wen, Zhicheng Dou, 2025, No journal）
Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned Language Models through Task Arithmetic（Rishabh Bhardwaj, Duc Anh, Soujanya Poria, 2024, No journal）
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs（Yujun Zhou, Jingdong Yang, Huang, Yue, Kehan Guo, Emory, Zoe, Ghosh, Bikram, Bedar, Amita, Sujay Shekar, Zhenwen Liang, Pin-Yu Chen, Gao, Tian, Geyer, Werner, Moniz, Nuno, Nitesh V. Chawla, Xiangliang Zhang, 2025, Code Ocean）
Red Teaming Visual Language Models（Mukai Li, Lei Li, Yuwei Yin, Masood Ahmed, Zhenguang Liu, Qi Liu, 2024, No journal）
Hardening LLM Fine-Tuning: From Differentially Private Data Selection to Trustworthy Model Quantization（Zehang Deng, Ruoxi Sun, Minhui Xue, Wanlun Ma, Sheng Wen, ‪Surya Nepal‬, Yang Xiang, 2025, IEEE Transactions on Information Forensics and Security）
<scp>AIArena</scp> : A Blockchain-Based Decentralized AI Training Platform（Zhipeng Wang, Rui Sun, Eric Lui, Tuo Zhou, Yizhe Wen, Jiahao Sun, 2025, No journal）
AIArena: A Blockchain-Based Decentralized AI Training Platform（Zhipeng Wang, Rui Sun, Eric Lui, Tuo Zhou, Yizhe Wen, Jiahao Sun, 2024, arXiv (Cornell University)）
FATE-LLM: A Industrial Grade Federated Learning Framework for Large Language Models（Tao Fan, Yan Kang, Guoqiang Ma, Weijing Chen, Wenbin Wei, Lixin Fan, Qiang Yang, 2023, arXiv (Cornell University)）
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning（Weirui Kuang, Bingchen Qian, Zitao Li, Daoyuan Chen, Dawei Gao, Xuchen Pan, Yuexiang Xie, Yaliang Li, Bolin Ding, Jingren Zhou, 2024, No journal）
Federated Sketching LoRA: A Flexible Framework for Heterogeneous Collaborative Fine-Tuning of LLMs（Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Seyyedali Hosseinalipour, Christopher G. Brinton, 2025, ArXiv.org）
SAP: Privacy-Preserving Fine-Tuning on Language Models with Split-and-Privatize Framework（Huan Tian, Guangsheng Zhang, Bo Liu, Tianqing Zhu, Ming Ding, Wanlei Zhou, Bing Duan, Zirui Huang, Yunlong Mao, Ye Wu, Sheng Zhong, 2024, No journal）

知识增强、工具学习与复杂专项能力扩展

该组研究旨在扩展LLM的基础边界。包括利用合成数据进行知识注入（Ski）、增强外部工具调用（ToolLLM）、处理图结构数据（GraphGPT）、检索增强生成（RAG）、多模态能力融合以及长文本处理等任务的适配研究。

Synthetic Knowledge Ingestion: Towards Knowledge Refinement and Injection for Enhancing Large Language Models（Jiaxin Zhang, Wendi Cui, Yiran Huang, Kamalika Das, Sricharan Kumar, 2024, No journal）
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs（Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun, Sun, Maosong, 2023, arXiv (Cornell University)）
GraphGPT: Graph Instruction Tuning for Large Language Models（Jiabin Tang, Yuhao Yang, Wei Wei, Lei Shi, Lixin Su, Suqi Cheng, Dawei Yin, Chao Huang, 2024, No journal）
大语言模型融合知识图谱的装备问答系统研究（王美华, 张友星, 2025, 人工智能与机器人研究）
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages（Yuanchi Zhang, Yile Wang, Zijun Liu, Shuo Wang, Xiaolong Wang, Peng Li, Maosong Sun, Yang Liu, 2024, No journal）
Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca（Yiming Cui, Ziqing Yang, Xin Yao, 2023, arXiv (Cornell University)）
LIFT: A Novel Framework for Enhancing Long-Context Understanding of LLMs via Long Input Fine-Tuning（Yansheng Mao, Yufei Xu, Jiaqi Li, Fanxu Meng, Haotong Yang, Zilong Zheng, Xiyuan Wang, Muhan Zhang, 2025, arXiv (Cornell University)）
A Novel Multimodal Transformer Approach for Targeted Information Retrieval from Obscure Images（Kanishk Dukia, Utsav Gupta, Vasudev Dehalwar, Amit Kumar Nandanwar, 2025, No journal）
基于视觉–语言联合建模与LoRA微调的医疗废弃物检测模型（刘奥, 曾耀, 李卓, 孙强, 王孟飞, 2025, 人工智能与机器人研究）
Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality（Jiahuan Pei, Irene Viola, Hao‐Chen Huang, Junxiao Wang, Moonisa Ahsan, Fanghua Ye, Yiming Jiang, Yao Sai, Di Wang, Zhumin Chen, Pengjie Ren, Pablo César, 2024, No journal）
Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models（Seungduk Kim, Seungtaek Choi, Myeongho Jeong, 2024, arXiv (Cornell University)）
Open-source LLMs for text annotation: a practical guide for model setting and fine-tuning（Meysam Alizadeh, Maël Kubli, Zeynab Samei, Shirin Dehghani, Mohammadmasiha Zahedivafa, Juan Diego Bermeo, Maria Korobeynikova, Fabrizio Gilardi, 2024, Journal of Computational Social Science）

垂直行业领域的定制化微调与应用实践

这些文献展示了LLM在医疗、金融、法律、制造、交通、代码评审及推荐系统等特定领域的深度应用。重点研究如何利用领域特定数据和专业指令进行微调，以提升模型在专业逻辑、术语理解和行业任务中的性能表现。

Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-World Multi-Turn Dialogue（Songhua Yang, Hanjie Zhao, Senbin Zhu, Guangyu Zhou, Xu Hongfei, Yuxiang Jia, Hongying Zan, 2024, Proceedings of the AAAI Conference on Artificial Intelligence）
基于LLM的智能阅卷系统设计（魏明, 2025, 管理科学与工程）
基于DeepSeek微调和动态建模的交通流预测（高畅, 2025, 交通技术）
MedAlpaca -- An Open-Source Collection of Medical Conversational AI Models and Training Data（Tianyu Han, Lisa C. Adams, Jens-Michalis Papaioannou, Paul Grundmann, Tom Oberhauser, Alexander Löser, Daniel Truhn, Keno K. Bressem, Bressem, Keno K., 2023, arXiv (Cornell University)）
Parameter-Efficient Fine-Tuning of LLaMA for the Clinical Domain（Aryo Pradipta Gema, Pasquale Minervini, Luke Daines, Tom Hope, Beatrice Alex, 2024, No journal）
LLM-MANUF: An integrated framework of Fine-Tuning large language models for intelligent Decision-Making in manufacturing（Kui Du, Bo Yang, Keqiang Xie, Nan Dong, Zhengping Zhang, Shilong Wang, Fan Mo, 2025, Advanced Engineering Informatics）
Fine-Tuning Large Language Models for Specialized Use Cases（DM Anisuzzaman, Jeffrey G. Malins, Paul A. Friedman, Zachi I. Attia, 2024, Mayo Clinic Proceedings Digital Health）
基于大语言模型的钻井智能系统构建技术研究（郭晓乐, 吴达越, 安思旭, 段正, 周超, 2025, 矿山工程）
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance（Qianqian Xie, Weiguang Han, Zhang Xiao, Yanzhao Lai, Min Peng, Alejandro Lopez-Lira, Jimin Huang, 2023, arXiv (Cornell University)）
医疗电商平台中大语言模型驱动的中文医学对话系统研究（滚流海, 曾以春, 吴娜, 2024, 电子商务评论）
LLaMA-Reviewer: Advancing Code Review Automation with Large Language Models through Parameter-Efficient Fine-Tuning（Junyi Lu, Lei Yu, LI Xiao-jia, Yang Li, Chun Zuo, 2023, No journal）
TALLRec: An Effective and Efficient Tuning Framework to Align Large Language Model with Recommendation（Keqin Bao, Jizhi Zhang, Yang Zhang, Wenjie Wang, Fuli Feng, Xiangnan He, 2023, No journal）
AutoRE: Document-Level Relation Extraction with Large Language Models（Lilong Xue, Dan Zhang, Yuxiao Dong, Jie Tang, 2024, No journal）
A GAIL Fine-Tuned LLM Enhanced Framework for Low-Resource Knowledge Graph Question Answering（Zhiqiang Zhang, Liqiang Wen, Wen Zhao, 2024, No journal）
Open-Source Large Language Models in Radiology: A Review and Tutorial for Practical Research and Clinical Deployment（Cody Savage, Adway Kanhere, Vishwa S. Parekh, Curtis P. Langlotz, Anupam Joshi, Heng Huang, Florence X. Doo, 2025, Radiology）
WizardCoder: Empowering Code Large Language Models with Evol-Instruct（Ziyang Luo, Can Xu, Pu Zhao, Qing‐Feng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang, 2023, arXiv (Cornell University)）
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation（Peiyang Wu, Nan Guo, Xiao Xiao, Wenming Li, Xiaochun Ye, Dongrui Fan, 2025, No journal）
AI-TA: Towards an Intelligent Question-Answer Teaching Assistant using Open-Source LLMs（Yann Hicke, Anmol Agarwal, Qianou Ma, Paul Denny, 2023, arXiv (Cornell University)）
A Comparative Analysis of Large Model Role-Dialogues Based on LoRA Fine-Tuning has been Conducted（Qiang Wang, Ning Ma, 2025, No journal）
大语言模型在企业信息化中的应用探讨（刘浩东, 2025, 电子商务评论）
Fine Tuning LLM for Enterprise: Practical Guidelines and Recommendations（Mathav Raj J, Kushala VM, Harikrishna Warrier, Yogesh Kumar Gupta, 2024, arXiv (Cornell University)）
Machine Translation with Large Language Models: Prompting, Few-shot Learning, and Fine-tuning with QLoRA（Xuan Zhang, Navid Rajabi, Kevin Duh, Philipp Koehn, 2023, No journal）
BB-GeoGPT: A framework for learning a large language model for geographic information science（Yifan Zhang, Zhiyun Wang, Zhengting He, Jingxuan Li, Gengchen Mai, Jianfeng Lin, Wei Cheng, Wenhao Yu, 2024, Information Processing & Management）
对比经微调的ERNIE-Lite-8K-0922和GPT-4在使用Prompt策略后在英语对话系统中的表现：以心理咨询师角色为例（季东霖, 郭子浩, 陈雨洁, 王欣然, 张梦林, 孙文韬, 2024, 人工智能与机器人研究）
SPRec: Self-Play to Debias LLM-based Recommendation（Chongming Gao, Renqiang Chen, Shuai Yuan, Kexin Huang, Yuanqing Yu, Xiangnan He, 2025, No journal）
Harnessing Large Language Models for Text-Rich Sequential Recommendation（Zhi Zheng, Wenshuo Chao, Zhaopeng Qiu, Hengshu Zhu, Hui Xiong, 2024, No journal）
基于思维链的通用语言模型推理能力研究（康睿哲, 2025, 人工智能与机器人研究）

大语言模型训练与微调工具及平台的技术研究

最终分组结果全面勾勒了大语言模型从底层算法到顶层应用的技术全景图。研究体系分为六大核心：以PEFT及其量化版本为代表的高效算法层；以分布式和训推一体化平台为代表的基础设施层；以人类偏好对齐、隐私保护和安全红队为代表的治理层；以多模态、工具调用和RAG为代表的能力扩展层；以及涵盖医疗、金融、制造等多个行业的垂直应用层。这体现了LLM正处于从“通用大模型”向“高效、安全、专业且具备复杂交互能力的工业级工具”转型的关键阶段。

共 85 篇文献，6 个研究方向

参数高效微调（PEFT）的算法演进与理论机制

该组文献聚焦于如何在有限计算资源下，通过改进LoRA及其变体（如DoRA、LoRA-Dropout）实现模型的高效适配。研究涵盖了PEFT的系统综述、参数更新的数学原理，以及混合专家模型（MoE）与LoRA的结合，旨在提升微调的理论上限与泛化能力。相关文献: Robert Belanec et. al, 2025 等 9 篇文献

模型压缩、量化微调与边缘设备部署优化

此类文献探讨了在大规模语言模型训练与推理过程中的资源优化技术。核心包括量化感知微调（QA-LoRA、QLoRA、IR-QLoRA）、权重剪枝（LoraPrune）、离群值感知量化（OWQ）以及针对6G/MEC等边缘计算场景的轻量化部署方案。相关文献: Yuhui Xu et. al, 2023 等 8 篇文献

综合性微调基础设施、分布式架构与训推一体化平台

这组文献关注大模型工程化落地。研究涵盖了如LLaMA-Factory、SWIFT等一站式训练框架，集成Triton内核提升吞吐量的方法，以及区块链去中心化训练（AIArena）、云边协同自动化平台和各种分布式训练中间件。相关文献: Yaowei Zheng et. al, 2024 等 12 篇文献

人类偏好对齐、反馈学习与安全治理体系

本组文献研究如何使模型符合人类预期并确保安全性。涉及DPO、KTO、RLAIF等对齐算法，解决奖励过度优化（ROO）的方案，以及通过差分隐私（DP）、联邦学习（FedLLM）保护训练数据，并建立针对多模态和实验室安全的红队测试基准。相关文献: Zhanhui Zhou et. al, 2024 等 17 篇文献

知识增强、工具学习与复杂专项能力扩展

该组研究旨在扩展LLM的基础边界。包括利用合成数据进行知识注入（Ski）、增强外部工具调用（ToolLLM）、处理图结构数据（GraphGPT）、检索增强生成（RAG）、多模态能力融合以及长文本处理等任务的适配研究。相关文献: Jiaxin Zhang et. al, 2024 等 12 篇文献

垂直行业领域的定制化微调与应用实践

这些文献展示了LLM在医疗、金融、法律、制造、交通、代码评审及推荐系统等特定领域的深度应用。重点研究如何利用领域特定数据和专业指令进行微调，以提升模型在专业逻辑、术语理解和行业任务中的性能表现。相关文献: Songhua Yang et. al, 2024 等 27 篇文献

总计86篇相关文献

LLM-MANUF: An integrated framework of Fine-Tuning large language models for intelligent Decision-Making in manufacturing

LLM-MANUF：用于制造业智能决策的大语言模型微调集成框架

Kui Du, Bo Yang, Keqiang Xie 等, 2025-Advanced Engineering Informatics

No abstract