agent方向最新研究

工具学习:让Agent学会稳定、可扩展地调用工具(个性化/协作/自动化)

围绕“工具学习与可用工具调用能力”的核心问题:让LLM从文档/协作/交互信号中学会稳定调用工具,并进一步实现个性化、自动化提示与多步工具使用(含工具发现/选择与函数化可执行接口的学习目标)。

规划与执行编排:从计划生成到状态化评测(降本增效)

共同聚焦“规划-执行/编排策略与状态化交互评测”:通过规划器(如全局DAG)、自校验/推理计划、统计结构降低工具选择成本,以及面向GUI/交互式环境引入跨回合记忆与状态化评测,以提升复杂任务的执行质量与效率。

模块化系统与协议/栈:用标准接口连接工具与组件

围绕“模块化系统与协议/栈标准化”:将工具与组件以接口/协议方式进行工程化连接,强调planner/executor与路由/内存等模块的可组合性,并通过MCP等协议降低集成成本、提升可扩展部署。

记忆与工作内存:长期/分布式记忆与长程推理的内存约束缓解

聚焦“记忆与工作内存管理”:包括长期/分布式记忆的管理机制、短期/工具检索记忆的优化,以及针对长程推理或图推理的工作内存约束缓解(通过缓冲、索引与与工具协作的方式提升长程能力)。

多智能体协作与协调:共识决策、ToM对齐与规模化评测

共同聚焦“多智能体协作与协调(共识/ToM/协作RL/规模化)”:包含语义层面的共识决策与冲突消解、ToM对齐与协作强化学习建模、coordination基准与评测分析,以及在大规模、多域环境中实现无需预设SOP的动态分解与并行执行。

认知与混合推理架构:非单调逻辑/语义中介与模块化认知流程

围绕“认知与混合推理架构”中的机制性设计:用非单调逻辑/领域知识与语义中介构建可重规划能力,并受工作记忆启发进行分解式模块化(sense/buffer/execute等),强调通过认知架构弥补纯生成的推理缺陷。

Agentic AI总体框架与综述:范式分类、架构组成与治理落地

作为“宏观架构综述与框架化治理/范式分类”的上层视角:系统梳理agentic AI的概念演进、架构组成(工具/记忆/规划/治理等)、符号/神经/混合范式分类,并给出面向工程与研究的总体框架与未来方向。

面向真实应用的Agentic AI:领域落地、安全风险与评测基准

面向“真实应用与安全/风险评测”的落地导向:覆盖医疗等安全敏感场景、自动驾驶/无人机等自主系统威胁与安全性、以及可复现实验与基准思路(如FHIR-AgentEval),同时讨论将agentic能力用于机器人现实世界的评估与伦理/安全维度。

Agent能力训练与自我改进:反思学习、数据方法与评测框架

聚焦“Agent能力训练与自我改进/反思反馈学习”:通过数据重构与负样本降低幻觉、用语言反馈实现无需直接权重更新的强化、以及自动迭代优化agent配置的系统框架;同时强调配套的定义、评测指标与测试方法体系。

端到端Agent可操作性:工具发现-执行与记忆闭环

围绕“端到端推理代理将工具发现/动作执行/记忆管理整合”的可操作性:将工具与推理动作在同一代理流程中闭环执行,并通过模块化与记忆机制提升整体可用性与泛化。

agent方向最新研究

合并后的统一分组将agent方向最新研究按“能力获取(工具学习/训练)—系统实现(规划编排/模块化协议/端到端闭环)—长期可用性(记忆与工作内存)—复杂任务能力(多智能体协作/认知混合推理)—上层治理与工程落地(总体框架综述/真实应用安全评测)”的主线拆分为并列的若干主题板块。整体覆盖从算法方法、评测基准到工程部署的体系化演进,避免了将不同细粒度机制(如工具学习、规划编排、记忆管理、端到端闭环)混为笼统大组的情况,并保留了各文献集合的独特关注点。

60 篇文献,10 个研究方向
工具学习:让Agent学会稳定、可扩展地调用工具(个性化/协作/自动化)
围绕“工具学习与可用工具调用能力”的核心问题:让LLM从文档/协作/交互信号中学会稳定调用工具,并进一步实现个性化、自动化提示与多步工具使用(含工具发现/选择与函数化可执行接口的学习目标)。相关文献: Zhengliang Shi et. al, 2024 等 7 篇文献
规划与执行编排:从计划生成到状态化评测(降本增效)
共同聚焦“规划-执行/编排策略与状态化交互评测”:通过规划器(如全局DAG)、自校验/推理计划、统计结构降低工具选择成本,以及面向GUI/交互式环境引入跨回合记忆与状态化评测,以提升复杂任务的执行质量与效率。相关文献: Hailun Lu et. al, 2025 等 6 篇文献
模块化系统与协议/栈:用标准接口连接工具与组件
围绕“模块化系统与协议/栈标准化”:将工具与组件以接口/协议方式进行工程化连接,强调planner/executor与路由/内存等模块的可组合性,并通过MCP等协议降低集成成本、提升可扩展部署。相关文献: Nisharg Nargund et. al, 2025 等 6 篇文献
记忆与工作内存:长期/分布式记忆与长程推理的内存约束缓解
聚焦“记忆与工作内存管理”:包括长期/分布式记忆的管理机制、短期/工具检索记忆的优化,以及针对长程推理或图推理的工作内存约束缓解(通过缓冲、索引与与工具协作的方式提升长程能力)。相关文献: Kostas Hatalis et. al, 2024 等 5 篇文献
多智能体协作与协调:共识决策、ToM对齐与规模化评测
共同聚焦“多智能体协作与协调(共识/ToM/协作RL/规模化)”:包含语义层面的共识决策与冲突消解、ToM对齐与协作强化学习建模、coordination基准与评测分析,以及在大规模、多域环境中实现无需预设SOP的动态分解与并行执行。相关文献: Zhuohao Yu et. al, 2026 等 7 篇文献
认知与混合推理架构:非单调逻辑/语义中介与模块化认知流程
围绕“认知与混合推理架构”中的机制性设计:用非单调逻辑/领域知识与语义中介构建可重规划能力,并受工作记忆启发进行分解式模块化(sense/buffer/execute等),强调通过认知架构弥补纯生成的推理缺陷。相关文献: Tianyi Fu et. al, 2025 等 4 篇文献
Agentic AI总体框架与综述:范式分类、架构组成与治理落地
作为“宏观架构综述与框架化治理/范式分类”的上层视角:系统梳理agentic AI的概念演进、架构组成(工具/记忆/规划/治理等)、符号/神经/混合范式分类,并给出面向工程与研究的总体框架与未来方向。相关文献: Semih Yazıcı et. al, 2025 等 9 篇文献
面向真实应用的Agentic AI:领域落地、安全风险与评测基准
面向“真实应用与安全/风险评测”的落地导向:覆盖医疗等安全敏感场景、自动驾驶/无人机等自主系统威胁与安全性、以及可复现实验与基准思路(如FHIR-AgentEval),同时讨论将agentic能力用于机器人现实世界的评估与伦理/安全维度。相关文献: Youssef Mokssit et. al, 2026 等 6 篇文献
Agent能力训练与自我改进:反思学习、数据方法与评测框架
聚焦“Agent能力训练与自我改进/反思反馈学习”:通过数据重构与负样本降低幻觉、用语言反馈实现无需直接权重更新的强化、以及自动迭代优化agent配置的系统框架;同时强调配套的定义、评测指标与测试方法体系。相关文献: Zehui Chen et. al, 2024 等 6 篇文献
端到端Agent可操作性:工具发现-执行与记忆闭环
围绕“端到端推理代理将工具发现/动作执行/记忆管理整合”的可操作性:将工具与推理动作在同一代理流程中闭环执行,并通过模块化与记忆机制提升整体可用性与泛化。相关文献: Elias Lumer et. al, 2026 等 4 篇文献