Reiforcement Learning efficient training (sample efficiency for most)

合并后的最终分组将“样本效率”研究脉络按并列且尽量不交叉的维度归纳为 7 条主线：①离线/批量RL的保守与分布偏移缓解；②经验回放/重采样以提高数据复用率（含Hindsight与结构化重放）；③探索与信息/不确定性驱动的少样本交互；④模型化与规划/想象数据（含不确定性校正与合成经验）；⑤奖励与任务信号重构（稀疏/噪声/内部奖励与奖励几何/课程/表示）；⑥训练范式与工程/系统级插件降低单位交互利用成本；⑦理论与算法结构的可证高效（样本复杂度、收敛与regret）。同时对多智能体/控制/真实系统等“应用与复杂设置”做了专门单独分组，以保留其在交互预算与可部署性上的独特性。

共 146 篇文献，8 个研究方向

离线/批量强化学习：保守学习与分布偏移/外推风险缓解

该组聚焦“无/少在线交互”的离线/批量强化学习：通过保守/悲观估计、分布偏移与覆盖不足的鲁棒化、约束/公平/风险感知、以及不变表示或域泛化来提升从固定数据学习的可靠性与有效性；包含离线数据到离线仿真/评估的样本效率路线。相关文献: Laixi Shi et. al, 2022 等 23 篇文献

经验回放与重采样：优先级/多样性/可靠性/Hindsight提升数据复用率

该组的共同点是直接把“样本效率”落在训练数据复用机制上：通过经验回放的非均匀/优先级采样、可靠性/不确定性与多样性驱动的高价值重放、Hindsight与成功表征（successor representation）改进稀疏奖励学习；同时引入对经验回放收敛与陈旧性影响的分析，以及合成/结构化重放（mixup、随机重排、对称/聚类/遗忘重放）进一步提升更新-数据比。相关文献: Leonard S. Pleiss et. al, 2025 等 29 篇文献

探索效率：不确定性/信息增益驱动的少样本交互与覆盖

该组强调“用更少交互得到更有效覆盖/更快信息增益”的探索机制：以不确定性/集成误差/后验采样、信息增益或分布距离度量来选择动作；并包含面向竞争多智能体的策略性探索、以及基于探索-利用解耦与少样本适应（meta/RL框架）的效率提升。相关文献: Robert Loftin et. al, 2021 等 18 篇文献

模型基础与规划/想象数据：用模型少采样并校正误差与偏差

该组共同点是“模型化/规划/虚拟交互与合成经验”路线：通过学习环境模型或模型集合来进行少样本规划与想象，从而降低真实交互需求；同时用不确定性、保守/风险感知、以及误差界来缓解模型偏差导致的级联错误，并覆盖模型基础RL的调查与特定应用（如量子、世界模型/规划框架、以及跨域合成数据引导）。相关文献: Mianchu Wang et. al, 2023 等 22 篇文献

奖励工程与任务信号重构：稀疏/噪声奖励、奖励几何与Q整形提升样本效率

该组集中在“奖励信号/任务结构重构”对样本效率的作用：面向稀疏、噪声或延迟奖励，通过奖励稠密化、层级/分阶段奖励、奖励几何/Quasimetric、因果步进课程、奖励机器（stochastic reward machines）与选择性学习等，使学习信号更易优化、更稳定、更快；同时在高维观测下用奖励到Q值整形（reward shaping / Q-shaping）与信息论/信用分配视角解释样本效率根源。相关文献: Sinan Ibrahim et. al, 2024 等 20 篇文献

训练范式与工程插件：降低单位交互/训练利用成本

该组更偏“训练范式/系统插件/工程流程”层面：通过更省数据利用的训练设置（如reset replay）、评测与实验范式选择、以及对算法训练成本/交互开销的组织方式，降低单位样本的利用摩擦；并保留与样本效率紧密相关的特定训练约束（如步进公平约束）作为工程可落地的效率来源。相关文献: Junzi Zhang et. al, 2020 等 6 篇文献

理论层面的样本效率：样本复杂度、regret与可证明高效算法

该组共同点是“可证高效/可计算样本效率”的理论支撑：包括样本复杂度上界、在线收敛与regret界、经验回放/模型基础方法的收敛与偏差-方差刻画、以及在特定MDP结构/Tabular设定下给出最小样本复杂度或无burn-in性质，从而解释为什么某些机制能在少样本条件下工作。相关文献: Zhun Deng et. al, 2022 等 15 篇文献

特定领域与复杂交互设置：多智能体/控制/真实系统中的交互效率

该组保留“复杂设置/应用验证”在样本效率研究中的独特性：包括多智能体竞争与协作（交互预算敏感）、以及控制/系统识别/能量管理/UAV采集等真实工程任务；同时包含面向真实系统的端到端控制与不确定性驱动模型基础RL，突出“少样本可落地、鲁棒与稳定”的评价重点。相关文献: Robert Loftin et. al, 2021 等 13 篇文献

总计152篇相关文献

Sample Efficient Reinforcement Learning with REINFORCE

基于REINFORCE的样本高效强化学习

doi.org-Junzi Zhang, Jongho Kim, Brendan O'Donoghue 等, 2020-Proceedings of the AAAI Conference on Artificial Intelligence

Policy gradient methods are among the most effective methods for large-scale reinforcement learning, and their empirical success has prompted several works that develop the foundation of their global convergence theory. However, prior works have either required exact gradients or state-action visitation measure based mini-batch stochastic gradients with a diverging batch size, which limit their applicability in practical scenarios. In this paper, we consider classical policy gradient methods that compute an approximate gradient with a single trajectory or a fixed size mini-batch of trajectories under soft-max parametrization and log-barrier regularization, along with the widely-used REINFORCE gradient estimation procedure. By controlling the number of "bad" episodes and resorting to the classical doubling trick, we establish an anytime sub-linear high probability regret bound as well as almost sure global convergence of the average regret with an asymptotically sub-linear rate. These provide the first set of global convergence and sample efficiency results for the well-known REINFORCE algorithm and contribute to a better understanding of its performance in practice.