大模型

扩展法则（Scaling Laws）与性能预测机理

该组论文研究大模型性能与计算量、参数量、数据量及推理成本之间的量化关系。涵盖了经典的Chinchilla最优配比、推理侧扩展法则、领域持续预训练的缩放规律，以及模型在事实记忆和下游任务表现上的预测模型。

Training Compute-Optimal Large Language Models（Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre, 2022, arXiv (Cornell University)）
Revisiting Scaling Laws for Language Models: The Role of Data Quality and Training Strategies（Zhengyu Chen, Siqi Wang, Teng Xiao, Yudong Wang, Shen‐Hsing Annabel Chen, Xunliang Cai, Junxian He, Jingang Wang, 2025, No journal）
Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models（Siqi Wang, Zhengyu Chen, Bei Li, Keqing He, Min Zhang, Jingang Wang, 2024, No journal）
Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models（Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang, 2024, arXiv (Cornell University)）
Deep Learning Scaling is Predictable, Empirically（Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md. Mostofa Ali Patwary, Yang Yang, Yanqi Zhou, 2017, arXiv (Cornell University)）
Scaling Laws for Forgetting When Fine-Tuning Large Language Models（Damjan Kalajdzievski, 2024, arXiv (Cornell University)）
Scaling Laws for Linear Complexity Language Models（Xuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong, 2024, No journal）
Observational Scaling Laws and the Predictability of Language Model Performance（Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto, 2024, arXiv (Cornell University)）
Efficient scaling of large language models with mixture of experts and 3D analog in-memory computing（Julian Büchel, Athanasios Vasilopoulos, William Simon, Irem Boybat, Hsinyu Tsai, Geoffrey W. Burr, Hernan Castro, B. Filipiak, Manuel Le Gallo, Abbas Rahimi, Vijay Narayanan, Abu Sebastian, 2025, Nature Computational Science）
Scaling Laws for Downstream Task Performance of Large Language Models（Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo, 2024, arXiv (Cornell University)）
Unified Scaling Laws for Routed Language Models（Aidan Clark, Diego de las Casas, Aurelia Guy, Arthur Mensch, M. Paganini, Jordan Hoffmann, Bogdan Damoc, Blake A. Hechtman, Trevor Cai, Sebastian Borgeaud, George van den Driessche, Eliza Rutherford, Tom Hennigan, Matthew Johnson, Katie Millican, Albin Cassirer, C. A. Jones, Elena Buchatskaya, David Budden, Laurent Sifre, Simon Osindero, Oriol Vinyals, Jack W. Rae, Erich Elsen, Koray Kavukcuoglu, Karen Simonyan, 2022, arXiv (Cornell University)）
Evidence of a log scaling law for political persuasion with large language models（Kobi Hackenburg, Ben M Tappin, Paul Röttger, Scott A. Hale, Jonathan Bright, Helen Margetts, 2024, arXiv (Cornell University)）
Scaling Laws for Neural Language Models（Jared Kaplan, Sam McCandlish, Tom Henighan, T. B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei, 2020, arXiv (Cornell University)）
Scaling Laws for Fact Memorization of Large Language Models（Xingyu Lu, Xiaonan Li, Qinyuan Cheng, Kai Ding, Xuanjing Huang, Xipeng Qiu, 2024, No journal）
Scaling laws for language encoding models in fMRI（Richard Antonello, Aditya R. Vaidya, Alexander G. Huth, 2023, PubMed）
D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models（Haoran Que, Jiaheng Liu, Ge Zhang, Chenchen Zhang, Xingwei Qu, Yinghao Ma, Feiyu Duan, Zhiqi Bai, Jiakai Wang, Yuanxing Zhang, Xu Tan, Jie Fu, Wenbo Su, Jiamang Wang, Qu Lin, Bo Zheng, 2024, arXiv (Cornell University)）
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws（Nikhil Sardana, Jonathan Frankle, Doubov, Sasha, Frankle, Jonathan, 2023, arXiv (Cornell University)）

混合专家架构（MoE）与高效模型设计

聚焦于通过架构创新提升模型容量与效率。重点包括MoE的稀疏激活机制、专家专门化优化、MoE与PEFT的结合（如X-LoRA、MoELoRA），以及针对线性时间序列建模的新型架构（如Mamba/SSM）。

Adaptive Gating in Mixture-of-Experts based Language Models（Jiamin Li, Qiang Su, Yitao Yang, Yi‐Min Jiang, Cong Wang, Hong Xu, 2023, No journal）
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models（Damai Dai, Chengqi Deng, Chenggang Zhao, Ruijian Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Yongle Wu, Zhenda Xie, Y. K. Li, Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang, 2024, No journal）
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer（Boan Liu, Liang Ding, Li Shen, Keqin Peng, Yu Cao, Dazhao Cheng, Dacheng Tao, 2024, Frontiers in artificial intelligence and applications）
MoE-LPR: Multilingual Extension of Large Language Models Through Mixture-of-Experts with Language Priors Routing（Hao Zhou, Zhijun Wang, Shujian Huang, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Weihua Luo, Jiajun Chen, 2025, Proceedings of the AAAI Conference on Artificial Intelligence）
A Closer Look into Mixture-of-Experts in Large Language Models（Ka Man Lo, Zeyu Huang, Zihan Qiu, Zili Wang, Jie Fu, 2024, arXiv (Cornell University)）
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model（DeepSeek-AI, Liu, Aixin, Feng, Bei, Wang, Bin, Wang, Bingxuan, Liu, Bo, Zhao, Chenggang, Dengr, Chengqi, Ruan, Chong, Dai, Damai, Guo, Daya, Yang, Dejian, Chen, Deli, Ji, Dongjie, Li, Erhang, Lin, Fangyun, Luo, Fuli, Hao, Guangbo, Chen, Guanting, Li, Guowei, Zhang, H., Xu, Hanwei, Yang, Hao, Zhang, Haowei, Ding, Honghui, Xin, Huajian, Gao, Huazuo, Li, Hui, Qu, Hui, Cai, J. L., Liang, Jian, Guo, Jianzhong, Ni, Jiaqi, Li, Jiashi, Chen, Jin, Yuan, Jingyang, Qiu, Junjie, Song, Junxiao, Dong, Kai, Gao, Kaige, Guan, Kang, Wang, Lean, Zhang, Lecong, Xu, Lei, Xia, Leyi, Zhao, Liang, Zhang, Liyue, Li, Meng, Wang, Miaojun, Zhang, Mingchuan, Zhang, Minghua, Tang, Minghui, Li, Mingming, Tian, Ning, Huang, Panpan, Wang, Peiyi, Zhang, Peng, Zhu, Qihao, Chen, Qinyu, Du, Qiushi, Chen, R. J., Jin, R. L., Ge, Ruiqi, Pan, Ruizhe, Xu, Runxin, Chen, Ruyi, Li, S. S., Lu, Shanghao, Zhou, Shangyan, Chen, Shanhuang, Wu, Shaoqing, Ye, Shengfeng, Ma, Shirong, Wang, Shiyu, Zhou, Shuang, Yu, Shuiping, Zhou, Shunfeng, Zheng, Size, Wang, T., Pei, Tian, Yuan, Tian, Sun, Tianyu, Xiao, W. L., Zeng, Wangding, An, Wei, Liu, Wen, Liang, Wenfeng, Gao, Wenjun, Zhang, Wentao, Li, X. Q., Jin, Xiangyue, Wang, Xianzu, Bi, Xiao, Liu, Xiaodong, Wang, Xiaohan, Shen, Xiaojin, Chen, Xiaokang, Chen, Xiaosha, Nie, Xiaotao, Sun, Xiaowen, 2024, arXiv (Cornell University)）
OLMoE: Open Mixture-of-Experts Language Models（Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi, 2024, arXiv (Cornell University)）
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training（Zexuan Zhong, Mengzhou Xia, Danqi Chen, Michael Lewis, 2024, arXiv (Cornell University)）
Mamba: Linear-Time Sequence Modeling with Selective State Spaces（Albert Gu, Tri Dao, 2023, arXiv (Cornell University)）
OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models（Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You, 2024, arXiv (Cornell University)）
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models（Zefeng Gao, Peiyu Liu, Wayne Xin Zhao, Zhong-Yi Lu, Ji-Rong Wen, 2022, arXiv (Cornell University)）
Efficient Mixture of Experts based on Large Language Models for Low-Resource Data Preprocessing（Mengyi Yan, Yaoshu Wang, K.K. Pang, Min Xie, Jianxin Li, 2024, No journal）
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts（Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Fırat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathy Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V. Le, Yonghui Wu, Zhifeng Chen, Claire Cui, 2021, arXiv (Cornell University)）
When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications（Qidong Liu, Xian Wu, Xiangyu Zhao, Yuanshao Zhu, Derong Xu, Feng Tian, Yefeng Zheng, 2024, No journal）
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models（Xudong Lü, Qi Liu, Yuhui Xu, Aojun Zhou, Siyuan Huang, Bo Zhang, Junchi Yan, Hongsheng Li, 2024, No journal）
Getting MoRE out of Mixture of Language Model Reasoning Experts（Chenglei Si, Weijia Shi, Chen Zhao, Luke Zettlemoyer, Jordan Boyd‐Graber, 2023, No journal）
X-LoRA: Mixture of low-rank adapter experts, a flexible framework for large language models with applications in protein mechanics and molecular design（Eric L. Buehler, Markus J. Buehler, 2024, APL Machine Learning）
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models（Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Lee, Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu, Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt Keutzer, Trevor Darrell, Denny Zhou, 2023, arXiv (Cornell University)）
Efficient Large Scale Language Modeling with Mixtures of Experts（Mikel Artetxe, Shruti Bhosale, Naman Goyal, Todor Mihaylov, Myle Ott, Sam Shleifer, Xi Victoria Lin, Jingfei Du, Srinivasan Iyer, Ramakanth Pasunuru, Giridharan Anantharaman, Xian Li, Shuohui Chen, Halil Akın, Mandeep Baines, Louis Martin, Xing Zhou, Punit Singh Koura, Brian O’Horo, Jeffrey Wang, Luke Zettlemoyer, Mona Diab, Zornitsa Kozareva, Veselin Stoyanov, 2022, No journal）

参数高效微调（PEFT）与模型压缩技术

研究如何在极低资源消耗下实现模型适配。涵盖LoRA及其变体（DoRA、AdaLoRA）、Adapter、BitFit等技术，并探讨了微调过程中的安全性、隐私保护以及与结构化剪枝的结合。

<scp>AutoPEFT</scp>: Automatic Configuration Search for Parameter-Efficient Fine-Tuning（Han Zhou, Xingchen Wan, Ivan Vulić, Anna Korhonen, 2024, Transactions of the Association for Computational Linguistics）
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning（Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric P. Xing, Zhiqiang Shen, 2023, arXiv (Cornell University)）
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning（Haokun Liu, Derek Tam, Abdul Mohammed, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel, 2022, arXiv (Cornell University)）
Parameter-efficient fine-tuning of large-scale pre-trained language models（Ning Ding, Yujia Qin, Guang Yang, Fuchao Wei, Zonghan Yang, Yusheng Su, Shengding Hu, Yulin Chen, Chi-Min Chan, Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Hai-Tao Zheng, Jianfei Chen, Yang Liu, Jie Tang, Juanzi Li, Maosong Sun, 2023, Nature Machine Intelligence）
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models（Martin Weyssow, Xin Zhou, Kisub Kim, David Lo, Houari Sahraoui, 2025, ACM Transactions on Software Engineering and Methodology）
LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models（Zhiqiang Hu, Lei Wang, Yihuai Lan, Wanyu Xu, Ee‐Peng Lim, Lidong Bing, Xing Xu, Soujanya Poria, Roy Lee, 2023, No journal）
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning（Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, Tuo Zhao, Zhao, Tuo, 2023, arXiv (Cornell University)）
Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning（Shuai Zhao, Leilei Gan, Anh Tuan Luu, Jie Fu, Lingjuan Lyu, Meihuizi Jia, Jinming Wen, 2024, No journal）
LoRA: Low-Rank Adaptation of Large Language Models（J. Edward Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen, Chen, Weizhu, 2021, arXiv (Cornell University)）
An Empirical Study of Parameter-Efficient Fine-Tuning Methods for Pre-Trained Code Models（Jiaxing Liu, Chaofeng Sha, Xin Peng, 2023, No journal）
Parameter-Efficient Fine-Tuning Design Spaces（Jiaao Chen, Aston Zhang, Xingjian Shi, Mu Li, Alex Smola, Diyi Yang, 2023, arXiv (Cornell University)）
Well-Read Students Learn Better: On the Importance of Pre-training Compact Models（Iulia Turc, Ming‐Wei Chang, Kenton Lee, Kristina Toutanova, 2019, arXiv (Cornell University)）
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning（Mingyang Zhang, H. S. Chen, Chunhua Shen, Zhen Yang, Linlin Ou, Xinyi Yu, Bohan Zhuang, 2024, No journal）
Privacy-Preserving Parameter-Efficient Fine-Tuning for Large Language Model Services（Yansong Li, Zhixing Tan, Yang Liu, Liu, Yang, 2023, arXiv (Cornell University)）
On the Effectiveness of Parameter-Efficient Fine-Tuning（Zihao Fu, Haoran Yang, Anthony Man–Cho So, Wai Lam, Lidong Bing, Nigel Collier, 2023, Proceedings of the AAAI Conference on Artificial Intelligence）
DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution（Yulong Mao, Kaiyu Huang, Changhao Guan, Ganglin Bao, Fengran Mo, Jinan Xu, 2024, No journal）
BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models（Elad Ben Zaken, Yoav Goldberg, Shauli Ravfogel, 2022, No journal）
Parameter-efficient fine-tuning large language model approach for hospital discharge paper summarization（Joyeeta Goswami, Kaushal Kumar Prajapati, Ashim Saha, Apu Kumar Saha, Apu Kumar Saha, Apu Kumar Saha, 2024, Applied Soft Computing）
Hydra: Multi-head low-rank adaptation for parameter efficient fine-tuning（Sanghyeon Kim, Hyun-Mo Yang, Yunghyun Kim, Youngjoon Hong, Eunbyung Park, 2024, Neural Networks）
CPMI-ChatGLM: parameter-efficient fine-tuning ChatGLM with Chinese patent medicine instructions（Can Liu, Kaijie Sun, Qingqing Zhou, Yuchen Duan, Jianhua Shu, Hongxing Kan, Zongyun Gu, Jili Hu, 2024, Scientific Reports）
Parameter-Efficient Fine-Tuning without Introducing New Latency（Baohao Liao, Yan Meng, Christof Monz, 2023, No journal）

垂直领域适配、知识工程与跨学科应用

展示大模型在特定专业领域的落地能力。重点涵盖医疗健康（BioBERT、临床知识编码）、代码评审、生物蛋白设计、化学增强、古籍处理及法律伦理挑战。

Medical foundation large language models for comprehensive text analysis and beyond（Qianqian Xie, Qingyu Chen, Aokun Chen, Peng Cheng, Yan Hu, Fongci Lin, Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Xinyu Zhou, Lingfei Qian, Huan He, Dennis Shung, Lucila Ohno‐Machado, Yonghui Wu, Hua Xu, Jiang Bian, 2025, npj Digital Medicine）
Large Language Models in Medical Education: Opportunities, Challenges, and Future Directions（Alaa Abd‐Alrazaq, Rawan AlSaad, Dari Alhuwail, Arfan Ahmed, M Healy, Syed Latifi, Sarah Aziz, Rafat Damseh, Sadam Alabed Alrazak, Javaid I. Sheikh, 2023, JMIR Medical Education）
Large language models encode clinical knowledge（Karan Singhal, Shekoofeh Azizi, Tao Tu, S. Sara Mahdavi, Jason Lee, Hyung Won Chung, Nathan Scales, Ajay Kumar Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry W. Payne, Martin Seneviratne, Paul Gamble, Christopher Kelly, Abubakr Babiker, Nathanael Schärli, Aakanksha Chowdhery, P. Mansfield, Dina Demner‐Fushman, Blaise Agüera y Arcas, Dale R. Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomašev, Yun Liu, Alvin Rajkomar, Joëlle Barral, Christopher Semturs, Alan Karthikesalingam, Vivek Natarajan, 2023, Nature）
A study of generative large language model for medical research and healthcare（Peng Cheng, Xi Yang, Aokun Chen, Kaleb Smith, Nima PourNejatian, Anthony Costa, Cheryl Martin, Mona G. Flores, Ying Zhang, Tanja Magoč, Gloria Lipori, Duane A. Mitchell, Naykky Singh Ospina, Mustafa M. Ahmed, William R. Hogan, Elizabeth Shenkman, Yi Guo, Jiang Bian, Yonghui Wu, 2023, npj Digital Medicine）
Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing（裕二池谷, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, Hoifung Poon, 2021, ACM Transactions on Computing for Healthcare）
GujiBERT and GujiGPT: Construction of Intelligent Information Processing Foundation Language Models for Ancient Texts（Dongbo Wang, Chang Liu, Zhixiao Zhao, Si Shen, Liu Liu, Bin Li, Haotian Hu, Mengcheng Wu, Litao Lin, Xue Zhao, Xiyu Wang, 2023, arXiv (Cornell University)）
Parameter-Efficient Fine-Tuning of LLaMA for the Clinical Domain（Aryo Pradipta Gema, Pasquale Minervini, Luke Daines, Tom Hope, Beatrice Alex, 2024, No journal）
Evaluating Large Language Models Trained on Code（Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Pondé de Oliveira Pinto, Jared Kaplan, Harrison Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Łukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth A. Barnes, Ariel Herbert-Voss, William H. Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, I. Babuschkin, Suchir Balaji, Shantanu Jain, William S. Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Joshua Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew M. Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, Wojciech Zaremba, 2021, arXiv (Cornell University)）
LLaMA-Reviewer: Advancing Code Review Automation with Large Language Models through Parameter-Efficient Fine-Tuning（Junyi Lu, Lei Yu, LI Xiao-jia, Yang Li, Chun Zuo, 2023, No journal）
Parameter-efficient fine-tuning on large protein language models improves signal peptide prediction（Shuai Zeng, Duolin Wang, Lei Jiang, Dong Xu, 2024, Genome Research）
Augmenting large language models with chemistry tools（Andres M. Bran, Sam Cox, Oliver Schilter, Carlo Baldassari, Andrew Dickson White, Philippe Schwaller, 2024, Nature Machine Intelligence）
Knowledge Engineering Using Large Language Models（Jacob Austin, Augustus Odena, Maxwell Nye, 2023, DROPS (Schloss Dagstuhl – Leibniz Center for Informatics)）
Ethical and regulatory challenges of large language models in medicine（Jasmine Chiat Ling Ong, Yin‐Hsi Chang, William Wasswa, Atul J. Butte, Nigam H. Shah, Lita Chew, Nan Liu, Finale Doshi‐Velez, Wei Lü, Julian Savulescu, Daniel Shu Wei Ting, 2024, The Lancet Digital Health）
ChatGPT and large language models in academia: opportunities and challenges（Jesse G. Meyer, Ryan J. Urbanowicz, Patrick Martin, Karen O’Connor, Ruowang Li, Pei-Chen Peng, Tiffani J Bright, Nicholas P. Tatonetti, Kyoung‐Jae Won, Graciela Gonzalez‐Hernandez, Jason H. Moore, 2023, BioData Mining）
Intelligent Clinical Documentation: Harnessing Generative AI for Patient-Centric Clinical Note Generation（Anjanava Biswas, Wrick Talukdar, 2024, International Journal of Innovative Science and Research Technology (IJISRT)）
Adapted large language models can outperform medical experts in clinical text summarization（Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, Eduardo Pontes Reis, Anna Seehofnerová, Nidhi Rohatgi, Poonam Hosamani, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John M. Pauly, Akshay Chaudhari, 2024, Nature Medicine）
A systematic evaluation of large language models of code（Frank F. Xu, Uri Alon, Graham Neubig, Vincent J. Hellendoorn, 2022, No journal）
Delving into Parameter-Efficient Fine-Tuning in Code Change Learning: An Empirical Study（Shuo Liu, Jacky Keung, Zhen Yang, Fang Liu, Qilin Zhou, Yihan Liao, 2024, No journal）
Large Language Models in Machine Translation（Thorsten Brants, Ashok C. Popat, Peng Xu, Franz Josef Och, Jay B. Dean, 2007, No journal）
Overcoming language barriers via machine translation with sparse Mixture-of-Experts fusion of large language models（Shaolin Zhu, Leiyu Pan, Dong Jian, Deyi Xiong, 2025, Information Processing & Management）
Decision Transformer: Reinforcement Learning via Sequence Modeling（Lili Chen, Kevin Lü, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch, 2021, arXiv (Cornell University)）
LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language（James Requeima, John Bronskill, Dami Choi, Richard E. Turner, David Duvenaud, 2024, arXiv (Cornell University)）
Large language models generate functional protein sequences across diverse families（Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, J.L. Olmos, Caiming Xiong, Zachary Z. Sun, Richard Socher, James S. Fraser, Nikhil Naik, 2023, Nature Biotechnology）

模型能力评估、涌现机理与提示工程

探讨大模型的通用智能表现。包括对GPT-4等模型的AGI火花分析、思维链（CoT）推理、零样本学习能力、真实性评估（TruthfulQA）以及模型作为评审者（LLM-as-a-judge）的新型评估范式。

Sparks of Artificial General Intelligence: Early experiments with GPT-4（Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Túlio Ribeiro, Yi Zhang, 2023, arXiv (Cornell University)）
Welcome to the Era of ChatGPT et al.（Timm Teubner, Christoph M. Flath, Christof Weinhardt, Wil M. P. van der Aalst, Oliver Hinz, 2023, Business & Information Systems Engineering）
Is ChatGPT a General-Purpose Natural Language Processing Task Solver?（Chengwei Qin, Aston Zhang, Zhuosheng Zhang, Jiaao Chen, Michihiro Yasunaga, Diyi Yang, 2023, No journal）
TruthfulQA: Measuring How Models Mimic Human Falsehoods（Stephanie Lin, Jacob Hilton, Owain Evans, 2022, Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)）
Large Language Models are Zero-Shot Reasoners（Takeshi Kojima, Shixiang Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa, 2022, arXiv (Cornell University)）
Generative AI in the Era of Transformers: Revolutionizing Natural Language Processing with LLMs（Archna Balkrishna Yadav, 2024, Journal of Image Processing and Intelligent Remote Sensing）
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization（Jingqing Zhang, Yao Zhao, Mohammad Saleh, Peter J. Liu, 2019, arXiv (Cornell University)）
Code as Policies: Language Model Programs for Embodied Control（Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, Andy Zeng, 2023, No journal）
Emergent Abilities of Large Language Models（Jason Lee, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H., Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus, 2022, arXiv (Cornell University)）
The emergent role of artificial intelligence, natural learning processing, and large language models in higher education and research（Tariq Alqahtani, Hisham A. Badreldin, Mohammed Alrashed, Abdulrahman Alshaya, Sahar S. Alghamdi, Khalid Bin Saleh, Shuroug A. Alowais, Omar A. Alshaya, Ishrat Rahman, Majed S. Al Yami, Abdulkareem Albekairy, 2023, Research in Social and Administrative Pharmacy）
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws（Zeyuan Allen-Zhu, Yuanzhi Li, 2025, SSRN Electronic Journal）
Can Large Language Models Be an Alternative to Human Evaluations?（Cheng-Han Chiang, Hung-yi Lee, 2023, No journal）
ChatGPT and the rise of large language models: the new AI-driven infodemic threat in public health（Luigi De Angelis, Francesco Baglivo, Guglielmo Arzilli, Gaetano Pierpaolo Privitera, Paolo Ferragina, Alberto Eugenio Tozzi, Caterina Rizzo, 2023, Frontiers in Public Health）

训练基础设施、推理优化与弱监督学习

关注大模型从训练到部署的全生命周期优化。涉及流水线并行（GPipe）、KV缓存管理（vLLM）、推理卸载技术（Offloading），以及在低资源环境下的弱监督自训练与知识增强策略。

Efficient Memory Management for Large Language Model Serving with PagedAttention（Woosuk Kwon, Z. Li, Siyuan Zhuang, Ying Sheng, L Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, Ion Stoica, 2023, No journal）
Fast Inference of Mixture-of-Experts Language Models with Offloading（Artyom Eliseev, D. Peter Mazur, 2023, arXiv (Cornell University)）
Efficient Inference Offloading for Mixture-of-Experts Large Language Models in Internet of Medical Things（Xiaoming Yuan, Weixuan Kong, Zhenyu Luo, Minrui Xu, 2024, Electronics）
GPipe: Efficient Training of Giant Neural Networks using Pipeline\n Parallelism（Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Fırat, Mia Xu Chen, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Yonghui Wu, Zhifeng Chen, 2018, arXiv (Cornell University)）
Pre-training via Paraphrasing（Mike Lewis, Marjan Ghazvininejad, Gargi Ghosh, Armen Aghajanyan, Sida Wang, Luke Zettlemoyer, 2020, arXiv (Cornell University)）
Self-supervised Graph Masking Pre-training for Graph-to-Text Generation（Jiuzhou Han, Ehsan Shareghi, 2022, No journal）
Graph Pre-training for AMR Parsing and Generation（Xuefeng Bai, Yulong Chen, Yue Zhang, 2022, Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)）
SLM: Bridge the Thin Gap Between Speech and Text Foundation Models（Mingqiu Wang, Wei Han, Izhak Shafran, Zelin Wu, Chung‐Cheng Chiu, Yuan Cao, Nanxin Chen, Yu Zhang, Hagen Soltau, Paul K. Rubenstein, Lukáš Žilka, Dian Yu, Golan Pundak, Nikhil Siddhartha, Johan Schalkwyk, Yonghui Wu, 2023, No journal）
Text Classification Using Label Names Only: A Language Model Self-Training Approach（Meng Yu, Yunyi Zhang, Jiaxin Huang, Chenyan Xiong, Heng Ji, Chao Zhang, Jiawei Han, 2020, No journal）
Weakly-Supervised Hierarchical Text Classification（Meng Yu, Jiaming Shen, Chao Zhang, Jiawei Han, 2019, Proceedings of the AAAI Conference on Artificial Intelligence）
Uncertainty-aware Self-training for Few-shot Text Classification（Subhabrata Mukherjee, Ahmed Hassan Awadallah, 2020, Neural Information Processing Systems）
K-BERT: Enabling Language Representation with Knowledge Graph（Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, Ping Wang, 2020, Proceedings of the AAAI Conference on Artificial Intelligence）
Reducing Hallucinations in Large Language Models: A Consensus Voting Approach Using Mixture of Experts（Shuhei Suzuoki, Keiko Hatano, 2024, No journal）
WDMoE: Wireless Distributed Large Language Models with Mixture of Experts（Nan Xue, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Liang Qian, Shuguang Cui, Ping Zhang, 2024, No journal）
Duplex: A Device for Large Language Models with Mixture of Experts, Grouped Query Attention, and Continuous Batching（Sungmin Yun, Kwanhee Kyung, Juhwan Cho, Jaewan Choi, Jongmin Kim, Byeongho Kim, S.-J. Lee, Kyomin Sohn, Jung Ho Ahn, 2024, No journal）

大模型

本报告综合了大模型领域的全方位研究进展：从理论层面的扩展法则（Scaling Laws）与涌现机理，到架构层面的混合专家模型（MoE）与线性复杂度模型创新；在应用技术上，涵盖了参数高效微调（PEFT）的演进及其在安全性、压缩方面的探索；在行业落地方面，详细展示了医疗、代码、生物等垂直领域的深度适配；最后，报告还关注了推理系统优化、训练基础设施以及弱监督学习等确保模型高效运行与持续进化的关键工程问题，构建了一个从底层理论到上层应用的完整技术生态图谱。

共 108 篇文献，6 个研究方向

扩展法则（Scaling Laws）与性能预测机理

该组论文研究大模型性能与计算量、参数量、数据量及推理成本之间的量化关系。涵盖了经典的Chinchilla最优配比、推理侧扩展法则、领域持续预训练的缩放规律，以及模型在事实记忆和下游任务表现上的预测模型。相关文献: Jordan Hoffmann et. al, 2022 等 17 篇文献

混合专家架构（MoE）与高效模型设计

聚焦于通过架构创新提升模型容量与效率。重点包括MoE的稀疏激活机制、专家专门化优化、MoE与PEFT的结合（如X-LoRA、MoELoRA），以及针对线性时间序列建模的新型架构（如Mamba/SSM）。相关文献: Jiamin Li et. al, 2023 等 19 篇文献

参数高效微调（PEFT）与模型压缩技术

研究如何在极低资源消耗下实现模型适配。涵盖LoRA及其变体（DoRA、AdaLoRA）、Adapter、BitFit等技术，并探讨了微调过程中的安全性、隐私保护以及与结构化剪枝的结合。相关文献: Han Zhou et. al, 2024 等 21 篇文献

垂直领域适配、知识工程与跨学科应用

展示大模型在特定专业领域的落地能力。重点涵盖医疗健康（BioBERT、临床知识编码）、代码评审、生物蛋白设计、化学增强、古籍处理及法律伦理挑战。相关文献: Qianqian Xie et. al, 2025 等 23 篇文献

模型能力评估、涌现机理与提示工程

探讨大模型的通用智能表现。包括对GPT-4等模型的AGI火花分析、思维链（CoT）推理、零样本学习能力、真实性评估（TruthfulQA）以及模型作为评审者（LLM-as-a-judge）的新型评估范式。相关文献: Sébastien Bubeck et. al, 2023 等 13 篇文献

训练基础设施、推理优化与弱监督学习

关注大模型从训练到部署的全生命周期优化。涉及流水线并行（GPipe）、KV缓存管理（vLLM）、推理卸载技术（Offloading），以及在低资源环境下的弱监督自训练与知识增强策略。相关文献: Woosuk Kwon et. al, 2023 等 15 篇文献

总计108篇相关文献

Large language models encode clinical knowledge

大型语言模型编码临床知识

Karan Singhal, Shekoofeh Azizi, Tao Tu 等, 2023-Nature

Large language models (LLMs) have demonstrated impressive capabilities, but the bar for clinical applications is high. Attempts to assess the clinical knowledge of models typically rely on automated evaluations based on limited benchmarks. Here, to address these limitations, we present MultiMedQA, a benchmark combining six existing medical question answering datasets spanning professional medicine, research and consumer queries and a new dataset of medical questions searched online, HealthSearchQA. We propose a human evaluation framework for model answers along multiple axes including factuality, comprehension, reasoning, possible harm and bias. In addition, we evaluate Pathways Language Model1 (PaLM, a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM2 on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA3, MedMCQA4, PubMedQA5 and Measuring Massive Multitask Language Understanding (MMLU) clinical topics6), including 67.6% accuracy on MedQA (US Medical Licensing Exam-style questions), surpassing the prior state of the art by more than 17%. However, human evaluation reveals key gaps. To resolve this, we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, knowledge recall and reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLMs for clinical applications.