Reiforcement Learning efficient training (sample efficiency for most)

离线/批量强化学习:保守学习与分布偏移/外推风险缓解

该组聚焦“无/少在线交互”的离线/批量强化学习:通过保守/悲观估计、分布偏移与覆盖不足的鲁棒化、约束/公平/风险感知、以及不变表示或域泛化来提升从固定数据学习的可靠性与有效性;包含离线数据到离线仿真/评估的样本效率路线。

经验回放与重采样:优先级/多样性/可靠性/Hindsight提升数据复用率

该组的共同点是直接把“样本效率”落在训练数据复用机制上:通过经验回放的非均匀/优先级采样、可靠性/不确定性与多样性驱动的高价值重放、Hindsight与成功表征(successor representation)改进稀疏奖励学习;同时引入对经验回放收敛与陈旧性影响的分析,以及合成/结构化重放(mixup、随机重排、对称/聚类/遗忘重放)进一步提升更新-数据比。

探索效率:不确定性/信息增益驱动的少样本交互与覆盖

该组强调“用更少交互得到更有效覆盖/更快信息增益”的探索机制:以不确定性/集成误差/后验采样、信息增益或分布距离度量来选择动作;并包含面向竞争多智能体的策略性探索、以及基于探索-利用解耦与少样本适应(meta/RL框架)的效率提升。

模型基础与规划/想象数据:用模型少采样并校正误差与偏差

该组共同点是“模型化/规划/虚拟交互与合成经验”路线:通过学习环境模型或模型集合来进行少样本规划与想象,从而降低真实交互需求;同时用不确定性、保守/风险感知、以及误差界来缓解模型偏差导致的级联错误,并覆盖模型基础RL的调查与特定应用(如量子、世界模型/规划框架、以及跨域合成数据引导)。

奖励工程与任务信号重构:稀疏/噪声奖励、奖励几何与Q整形提升样本效率

该组集中在“奖励信号/任务结构重构”对样本效率的作用:面向稀疏、噪声或延迟奖励,通过奖励稠密化、层级/分阶段奖励、奖励几何/Quasimetric、因果步进课程、奖励机器(stochastic reward machines)与选择性学习等,使学习信号更易优化、更稳定、更快;同时在高维观测下用奖励到Q值整形(reward shaping / Q-shaping)与信息论/信用分配视角解释样本效率根源。

训练范式与工程插件:降低单位交互/训练利用成本

该组更偏“训练范式/系统插件/工程流程”层面:通过更省数据利用的训练设置(如reset replay)、评测与实验范式选择、以及对算法训练成本/交互开销的组织方式,降低单位样本的利用摩擦;并保留与样本效率紧密相关的特定训练约束(如步进公平约束)作为工程可落地的效率来源。

理论层面的样本效率:样本复杂度、regret与可证明高效算法

该组共同点是“可证高效/可计算样本效率”的理论支撑:包括样本复杂度上界、在线收敛与regret界、经验回放/模型基础方法的收敛与偏差-方差刻画、以及在特定MDP结构/Tabular设定下给出最小样本复杂度或无burn-in性质,从而解释为什么某些机制能在少样本条件下工作。

特定领域与复杂交互设置:多智能体/控制/真实系统中的交互效率

该组保留“复杂设置/应用验证”在样本效率研究中的独特性:包括多智能体竞争与协作(交互预算敏感)、以及控制/系统识别/能量管理/UAV采集等真实工程任务;同时包含面向真实系统的端到端控制与不确定性驱动模型基础RL,突出“少样本可落地、鲁棒与稳定”的评价重点。

Reiforcement Learning efficient training (sample efficiency for most)

合并后的最终分组将“样本效率”研究脉络按并列且尽量不交叉的维度归纳为 7 条主线:①离线/批量RL的保守与分布偏移缓解;②经验回放/重采样以提高数据复用率(含Hindsight与结构化重放);③探索与信息/不确定性驱动的少样本交互;④模型化与规划/想象数据(含不确定性校正与合成经验);⑤奖励与任务信号重构(稀疏/噪声/内部奖励与奖励几何/课程/表示);⑥训练范式与工程/系统级插件降低单位交互利用成本;⑦理论与算法结构的可证高效(样本复杂度、收敛与regret)。同时对多智能体/控制/真实系统等“应用与复杂设置”做了专门单独分组,以保留其在交互预算与可部署性上的独特性。

146 篇文献,8 个研究方向
离线/批量强化学习:保守学习与分布偏移/外推风险缓解
该组聚焦“无/少在线交互”的离线/批量强化学习:通过保守/悲观估计、分布偏移与覆盖不足的鲁棒化、约束/公平/风险感知、以及不变表示或域泛化来提升从固定数据学习的可靠性与有效性;包含离线数据到离线仿真/评估的样本效率路线。相关文献: Laixi Shi et. al, 2022 等 23 篇文献
经验回放与重采样:优先级/多样性/可靠性/Hindsight提升数据复用率
该组的共同点是直接把“样本效率”落在训练数据复用机制上:通过经验回放的非均匀/优先级采样、可靠性/不确定性与多样性驱动的高价值重放、Hindsight与成功表征(successor representation)改进稀疏奖励学习;同时引入对经验回放收敛与陈旧性影响的分析,以及合成/结构化重放(mixup、随机重排、对称/聚类/遗忘重放)进一步提升更新-数据比。相关文献: Leonard S. Pleiss et. al, 2025 等 29 篇文献
探索效率:不确定性/信息增益驱动的少样本交互与覆盖
该组强调“用更少交互得到更有效覆盖/更快信息增益”的探索机制:以不确定性/集成误差/后验采样、信息增益或分布距离度量来选择动作;并包含面向竞争多智能体的策略性探索、以及基于探索-利用解耦与少样本适应(meta/RL框架)的效率提升。相关文献: Robert Loftin et. al, 2021 等 18 篇文献
模型基础与规划/想象数据:用模型少采样并校正误差与偏差
该组共同点是“模型化/规划/虚拟交互与合成经验”路线:通过学习环境模型或模型集合来进行少样本规划与想象,从而降低真实交互需求;同时用不确定性、保守/风险感知、以及误差界来缓解模型偏差导致的级联错误,并覆盖模型基础RL的调查与特定应用(如量子、世界模型/规划框架、以及跨域合成数据引导)。相关文献: Mianchu Wang et. al, 2023 等 22 篇文献
奖励工程与任务信号重构:稀疏/噪声奖励、奖励几何与Q整形提升样本效率
该组集中在“奖励信号/任务结构重构”对样本效率的作用:面向稀疏、噪声或延迟奖励,通过奖励稠密化、层级/分阶段奖励、奖励几何/Quasimetric、因果步进课程、奖励机器(stochastic reward machines)与选择性学习等,使学习信号更易优化、更稳定、更快;同时在高维观测下用奖励到Q值整形(reward shaping / Q-shaping)与信息论/信用分配视角解释样本效率根源。相关文献: Sinan Ibrahim et. al, 2024 等 20 篇文献
训练范式与工程插件:降低单位交互/训练利用成本
该组更偏“训练范式/系统插件/工程流程”层面:通过更省数据利用的训练设置(如reset replay)、评测与实验范式选择、以及对算法训练成本/交互开销的组织方式,降低单位样本的利用摩擦;并保留与样本效率紧密相关的特定训练约束(如步进公平约束)作为工程可落地的效率来源。相关文献: Junzi Zhang et. al, 2020 等 6 篇文献
理论层面的样本效率:样本复杂度、regret与可证明高效算法
该组共同点是“可证高效/可计算样本效率”的理论支撑:包括样本复杂度上界、在线收敛与regret界、经验回放/模型基础方法的收敛与偏差-方差刻画、以及在特定MDP结构/Tabular设定下给出最小样本复杂度或无burn-in性质,从而解释为什么某些机制能在少样本条件下工作。相关文献: Zhun Deng et. al, 2022 等 15 篇文献
特定领域与复杂交互设置:多智能体/控制/真实系统中的交互效率
该组保留“复杂设置/应用验证”在样本效率研究中的独特性:包括多智能体竞争与协作(交互预算敏感)、以及控制/系统识别/能量管理/UAV采集等真实工程任务;同时包含面向真实系统的端到端控制与不确定性驱动模型基础RL,突出“少样本可落地、鲁棒与稳定”的评价重点。相关文献: Robert Loftin et. al, 2021 等 13 篇文献