agent方向调研
前言
毕设进度基本上差不多了,接下来就是先探索一下接下来的研究领域力!
在完成毕设的过程中涉猎了下agent开发的相关领域,在兴趣上还是挺契合的,前些天看了下一些相关进展,但是没有动笔记录下来,还是会浅浅略过,过一眼就忘,还是得在阅读过程中顺带记录一下,并且时间上也不是特别连续,下一次就忘了这一次干了什么事情了……
话不多说,开始笔记。
Gemini的调研
核心科研趋势一:自进化智能体(Self-Evolving Agents)的范式确立
核心科研趋势二:通信协议的标准化与“智能体互联网”
2025 年的协议综述提出了一套系统的分类标准,将现有协议分为面向上下文(Context-Oriented)与智能体间(Inter-Agent)两个维度,并区分为通用型与领域特定型
| 协议名称 | 开发者/机构 | 分类维度 | 核心创新点与技术路径 |
|---|---|---|---|
| Model Context Protocol (MCP) | Anthropic | 面向上下文、通用型 | 标准化智能体与外部资源(如文件、工具、数据库)的连接。采用客户端-服务器架构,将复杂任务抽象为资源获取与工具调用。 |
| Agent-to-Agent (A2A) | 智能体间、通用型 | 侧重于生态系统内部(如企业内部)智能体的深度协作。允许智能体间直接建立依赖关系,降低通信开销,提升集体推理能力。 | |
| Agent Network Protocol (ANP) | ANP Community | 智能体间、通用型 | 关注跨域、去中心化的智能体互操作。利用 JSON-LD 和分布式身份标识(DID)解决跨安全边界的信任与协作问题。 |
| LOKA | Ranjan et al. | 领域特定、伦理协作 | 专注于去中心化的伦理协调协议(DECP),利用可验证凭证(VC)确保智能体行为符合道德规范。 |
核心科研趋势三:小语言模型(SLM)与架构效率的优化
NeurIPS 2025 的获奖论文《Gated Attention for Large Language Models》提出了一种对 Transformer 架构的简单改进,即在缩放点积注意力(SDPA)后引入头特定的 sigmoid 门控。
核心科研趋势四:推理时计算扩展(Test-Time Compute Scaling)
核心科研趋势五:多智能体协作与大规模编排
MegaAgent 与自主 SOP 生成
MOAT 框架
近期热点:
数据流控制(Data Flow Control, DFC): 研究如何在 Agent 自动化流程中嵌入策略引擎(如 FlowGuard),防止 Agent 在处理大数据时违反隐私法规或导致流程污染。
Agentic Speculation(代理投机): 针对海量数据湖,智能体不再全量读取,而是通过元数据探测和子集采样快速评估数据价值,优化查询代价。
上下文工程(Context Engineering): 取代传统的 Prompt Engineering,研究如何为 Agent 构建高效的 3D 场景记忆、文件系统映射或语义微缓存。
数据科学基准 DSBench: ICLR 2025 发布了涵盖 540 个 Kaggle 真实任务的基准,目前人类成功率远超 Agent(34%),这是接下来的攻坚核心。
相关论文:
A. 架构与长周期执行(2026年1月最新)
《InfiAgent: The Immortal Agent》 (2026-01)
- 创新点: 攻克了智能体处理海量数据任务时的“上下文饱和”瓶颈。它提出状态外挂化(Externalized State),将所有操作日志、中间件和记忆实时存储在文件系统中。
- 价值: 实现了理论上的“无限执行”,即便系统崩溃也能断点续传,支持长达数周的数据综述或工程任务。
《μACP: A Formal Calculus for Expressive Agent Communication》 (AAMAS 2026)
- 创新点: 为资源受限(内存 < 100KB)的边缘数据设备设计了极简通信协议,证明仅需 {PING, TELL, ASK, OBSERVE} 四个原语即可实现复杂的分布式数据协作。
B. 数据工程与 ETL 自动化(热点方向)
《DocETL: Agentic Query Rewriting for Complex Document Processing》 (VLDB 2025)
- 创新点: 引入代理重写指令(Rewrite Directives)。针对大数据中的非结构化文档,它能自动将复杂的分析任务重写并分解为更精确的子任务流水线。
- 效果: 在真实法律和医疗文档处理中,准确率比传统方法提升了 21% 至 80%。
《AutoDCWorkflow: Automated Data Cleaning Workflow Generation》 (EMNLP 2025)
- 创新点: 提出了“以目的为导向”的清洗模式。智能体根据用户的最终分析目标,自动生成 OpenRefine 等工具的可执行清洗操作序列。
C. 结构化数据与系统调优(大数据核心)
《AgentTune: An Agent-Based LLM Framework for Database Knob Tuning》 (SIGMOD 2026)
- 创新点: 将 LLM 角色化为资深数据库管理员(DBA),实现了参数修剪、模型初始化和参数推荐的端到端自动化。
- 价值: 解决了传统强化学习调优在冷启动和动态工作负载下的不稳定性,显著降低了查询延迟。
《AnoLLM: LLMs for Tabular Anomaly Detection》 (ICLR 2025)
- 创新点: 提出将异构表格数据序列化为标准文本,利用 LLM 计算**负对数似然(NLL)**来量化数据的“惊奇度”,从而在无监督环境下识别大数据流中的异常点。
NeurIPS Poster SSRB: Direct Natural Language Querying to Massive Heterogeneous Semi-Structured Data
Multi-Objective Agentic Rewrites forUnstructured Data Processing-1em
anollm-large-language-models-for-tabular-anomaly-detection.pdf
比较感兴趣的方向点
- 上下文工程(Context Engineering)
- 深度 agent(深度推理与统一架构(Deep Reasoning Architectures))
- 数据流控制(Data Flow Control, DFC)
上下文工程
毕设中实现了一个简易的结构,首先是将 agent 拆分,单模型不使用所有 prompt ,而是转为监管者、计划者、以及工人执行者,在这情况下,通过计划者进行计划拆分,接着监管者通过判断计划分配情况持续推进,工人每次仅获取当前步骤的 prompt,将 prompt 切分,工人的执行环境相对独立,使得工人工作时产生的 prompt 成为短时记忆,占据的 prompt 将不会成为共同记忆。
查看了这方面的材料后,大概理解当前研究方向主要是有多种:
A. 代理化上下文工程(Agentic Context Engineering)
智能体不再一次性读取所有规则,而是通过**“渐进式披露(Progressive Disclosure)”**,根据当前任务进度动态检索和构建上下文。
代表技术:CEA(Context Engineering Agent)。这类架构会专门配置一个“上下文管理副官”,实时压缩历史记录、提取关键线索,并确保送入主模型的 Token 是最高信号的。
B. 递归语言模型(Recursive Language Models, RLM)
这是 MIT 在 2025 年底提出的重大突破。RLM 将 Prompt 视为一种**“外部变量”**存储在 Python 环境中。
创新点: 模型不再直接“读”Prompt,而是像工程师操作数据库一样,通过代码指令(如 read_lines(5000-6000)或 regex_search())来切片和调用上下文。这使得处理 1000 万 Token 任务的成本降低了 60% 以上。
C. 标准化上下文协议(Model Context Protocol, MCP)
Anthropic 在 2025 年推行的 MCP 协议已成为行业标准。它将智能体与外部资源(文件、数据库、工具)的连接标准化。
变革: 你不需要把数据注入 Prompt,而是给模型一个“USB-C 接口”。模型按需调用外部上下文,实现了“外部大脑”的即插即用,彻底解决了 Prompt 臃肿问题。
| 论文标题 | 来源/期刊 | 核心创新点 | 解决的关键问题 |
|---|---|---|---|
| Recursive Language Models (RLM) | arXiv:2512.24601 (MIT) | 将提示词视为外部变量;递归自我调用机制;基于REPL的编程化处理。 | 突破物理窗口限制,解决复杂推理下的注意力崩溃。 |
| InfiAgent: An Infinite-Horizon Framework | ICLR 2026 Submission | 文件中心状态抽象(File-centric State);将长期记忆外部化至文件系统。 | 自主智能体在长周期任务中的状态饱和与循环报错。 |
| Agent0: Unleashing Self-Evolving Agents | arXiv Nov 2025 | 课程智能体与执行智能体的共生竞争;ADPO算法;零人工数据自我进化。 | 减少对高质量人工标注数据的依赖。 |
| Context Engineering Agent (CEA) | ICLR 2026 Submission | 线索备忘录(Clues Memo);上下文工程强化学习(CERL);错误过滤训练。 | 提升深层研究任务中的上下文利用率与稳定性。 |
| MemAgent: Overwrite Strategy | ICLR 2026 Submission | 基于强化学习的内存覆盖策略;3.5M Token的外推能力。 | 解决极长文本处理中的内存溢出与性能衰减。 |
2025 - ai顶会发表的关于 agent 的论文:
A-Mem: Agentic Memory for LLM Agents
- 内容: 基于卢曼卡片盒笔记法(Zettelkasten)的结构化记忆网络,支持记忆的动态索引、链接和进化。
- 会议: NeurIPS 2025
- 链接:A-Mem: Agentic Memory for LLM Agents
MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation
- 内容: 提出了双层记忆架构(全局记忆 + 局部检索),解决了模糊查询和长文本理解问题。
- 会议: TheWebConf 2025 (WWW ‘25)
- 链接: arXiv:2409.05591s
Reflective Memory Management (RMM) for Long-term Personalized Dialogue Agents
- 内容: 引入了“前瞻性”和“回顾性”反思机制,通过在线强化学习动态优化记忆检索策略。
- 会议: ACL 2025 (Long Paper)
- 链接: ACL Anthology
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
- 内容: 提出“恒定记忆流”概念,训练 Agent 将记忆作为推理的一部分,在固定 Token 预算内维持长期状态。
- 会议: NeurIPS 2025 Workshop / COLM 2025
- 链接: arXiv:2506.15841
论文整理
Recursive Language Models (RLM)
RLM 的核心发现其实非常反直觉:想要 AI 读得更长,就得让它少读点。
研究团队提出了一套名为 “递归语言模型” 的新玩法。他们把那超长的、几千万字的文本,不再看作是“要喂给 AI 的饲料”,而是看作一个**“外部环境”**。
打个比方: 传统的 AI 像是一个**“搬运工”,试图把整个图书馆搬进脑子里再干活。 而 RLM 像是一个“带电脑的管理员”**。
它的秘密武器: 一个 Python 运行环境(REPL)。
它的工作流程: 1. 当面对 1000 万字的资料时,RLM 不去硬读。 2. 它先写一段 Python 代码,像搜索雷达一样,把这千万字切成无数个小片段(Snippet)。 3. 它观察这些片段,如果发现某个地方有线索,它就**“递归地”**(就是自己叫自己)去深入阅读那个具体的片段。 4. 最后,它把所有搜集到的小零件拼接起来,交出答案。
这就是递归的力量: 它不是在“阅读”长文,而是在“编程”自己的阅读路径。
疑似 mcp 思想,但却是 2025-12 才写的
InfiAgent: An Infinite-Horizon Framework
核心方案:别把大脑当硬盘,学会“断舍离”
InfiAgent 的核心逻辑非常简单且优雅:别让 AI 的脑子里塞满历史,让它学会看“桌面”。
这种方法被称为 “状态外部化”(State Externalization)。
💡 绝妙的类比:
想象你在厨房里做满汉全席。
传统 AI 的做法: 试图在大脑里背诵所有菜谱、记得每一颗盐放下的时间、记得每个碗洗了几遍。随着菜做得越多,大脑越容易宕机。
InfiAgent 的做法: 它给自己准备了一个**“工作台”(Workspace)。每切好一盘菜,就把它放在桌子上并贴个标签。它的脑子里永远只关注:“我现在要做哪道菜?”** 和 “桌子上目前有什么?”
它是怎么做的?
- 文件中心化(File-centric): AI 不再试图把所有中间结果塞进对话历史,而是把它们保存为文件(比如代码运行结果、提取的文本摘要)。
- 动态重建(Context Reconstruction): 每次 AI 要说话时,它只看**“工作台当前的快照”加上“最近的一小段动作”**。
- 严格边界(Strictly Bounded): 无论这个任务干了一小时还是一个月,AI 每次处理的信息量是恒定的。
Aha! 时刻:20B 模型如何“以小博大”?
这项研究最令人兴奋的发现是:稳定,比强大更重要。
团队在 DeepResearch(深度研究任务)和“80 篇论文综述”这类变态级任务上进行了测试。结果发现:
20B 的开源小模型,配上 InfiAgent 框架后,其长程任务的完成度和准确率,竟然可以和 GPT-4o 这样庞大的闭源系统正面硬刚。
更强的一致性: 因为上下文被严格限制,AI 不会被自己之前的废话误导,哪怕任务持续几百步,它依然保持清醒。
Context Engineering Agent (CEA)
CEA:AI 界的“金牌大管家”
论文提出的方案叫 CEA(Context Engineering Agent,上下文工程智能体)。它不再让大模型一个人孤军奋战,而是引入了一个专门负责“管理记忆”的秘书。
这个秘书把 AI 的脑海空间(Context)精密地拆成了四个抽屉:
- 任务查询 (Task Query): 永远别忘了“我们最初是要干嘛”。
- 动态计划 (Dynamic Plan): 现在的进度到哪了?下一步该看哪份文件?
- 历史记忆 (Historical Memory): 刚才走过的弯路要记住,别再跑一遍。
- 语义事实 (Semantic Facts): 那些被确认的硬核结论,要单独拎出来。
核心突破:它不仅会分类,它还被“毒打”过
如果只是分四个抽屉,那叫“模板”,不叫“智能”。CEA 真正厉害的地方在于它背后的训练方法:CERL (Context Engineering RL)。
研究团队发现,AI 之所以会犯错,往往是因为它**“看漏了关键线索”或者“被过时的信息误导”**。 于是,他们设计了一套特殊的强化学习方案:
错误溯源: 当 AI 在最后的调研结论上出错时,CERL 会像复盘棋局一样往回找,看看是哪个阶段的上下文管理出了问题。
定向奖励: 只有当 AI 学会了如何精准提取线索、剔除废话、保持上下文“干干净净”时,它才会获得高分奖励。
这就是它的 Aha! 时刻: 它不是在学习如何“写报告”,而是在学习如何**“管理自己的注意力”**。
MemAgent 的研究者们(来自顶尖学术团队)有了一个执念: 既然人类可以通过练习来决定哪些信息该记、哪些该忘,为什么不能让 AI 也通过**“强化学习(RL)”**来练出这种直觉呢?
核心方法:给 AI 装上“记忆过滤器”
MemAgent 的思路非常硬核,但我们可以把它拆解为一个简单的过程:“考试、反思、进步”。
多卷积结构(Multi-Conv)——“敏锐的眼睛”: MemAgent 并不是逐字阅读,它用了一种类似“卷积”的技术(就像拍照时的滤镜),能够快速扫视长文本,捕捉到那些局部最关键的特征(比如某个特定的公式、人名或转折点)。
强化学习(RL)——“大脑的奖惩”: 这是 MemAgent 最聪明的地方。它在处理长任务时,会不断尝试:“我把这段信息存进记忆里对不对?” 如果它存了这段信息后,成功回答了后面的难题,系统就给它一个**“奖励”**。
如果它存了一堆废话导致后面由于空间不足而忘掉了关键线索,系统就给它一个**“惩罚”**。
比喻一下: MemAgent 就像一个正在准备 10 小时超长闭卷考试的学生。他手里只有一张 A4 纸(记忆空间)可以写小抄。 刚开始他乱写,结果考砸了。经过几千次模拟考试,他终于练出了一种神技:一眼看过去就知道哪句话是考点,哪句话是废话,并精准地把考点抄在 A4 纸上。
A-Mem: Agentic Memory for LLM Agents
能不能让 AI 抛弃那种“死记硬背”的查表方式,学会像人脑一样进行“神经联想”?
核心方案:给 AI 装上一个“神经检索器”
A-mem 的核心就是把 AI 的记忆系统,从“线性查找”升级为了 “联想检索(Associative Memory)”。
1. 放弃“全量携带”,改用“按需提取”
现在的长文本模型(Long-context LLMs)之所以贵,是因为它得把成千上万个 KV(键值对)一直放在显存里“烧”。 A-mem 引入了一个外挂的神经记忆模块。它把庞大的信息存在外面,模型在处理任务时,只通过一个“联想键”去外面“抓”最相关的片段。
2. 联想的秘诀:霍普菲尔德网络(Hopfield Networks)
论文引入了现代霍普菲尔德网络的思想。你可以把它想象成一个**“带有引力的记忆黑洞”**:
当一个新线索(Query)出现时,它会被吸向记忆库中最相似的那个点。
这种吸附过程是在高维数学空间里瞬间完成的,不需要像以前那样一个一个去数。
Aha! 时刻:它不仅记住了,还“进化”了
A-mem 带来的最震撼的发现是:这种联想机制,其实是一种超高效的“在线学习”。
真正的“过目不忘”: 实验显示,A-mem 在处理长达 10 万 Token 以上的任务时,其检索精度远远超过了传统的压缩方法。
零成本适配(In-context Adaptation): 传统模型要学新东西得“微调”(训练),很费劲。A-mem 只要把新知识塞进联想库,模型在对话中就能立刻学会并运用这些知识,表现得就像它本来就知道一样。
最直观的 Takeaway 是: A-mem 让 AI 的记忆从“静态的仓库”变成了“流动的思维”。它不再是把书背下来,而是把书变成了一种可以随时调用的“本能”。
MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation
核心方案:MemoRAG 的“双脑模式”
MemoRAG 的绝活儿就在于它把 AI 的大脑分成了两部分,这和我们大脑的“快速直觉”与“深度思考”很像:
记忆模型(Memory Model)——“小而快的导航员”: 这是一个经过特殊训练的小模型(通常只有几 B 参数)。它的任务不是精确背诵,而是对超长文本进行**“降维压缩”**,生成一套“全局记忆”。
Aha! 时刻: 它就像一个极其高明的书评人。你把 100 万字丢给它,它不记每个字,但它记住了整本书的骨架、逻辑流和知识点分布。
检索模型(Retrieval Model)——“精准的搬运工”: 当用户问一个问题时,记忆模型先在自己的“脑子”里过一遍,定位到:“哦,这个问题跟第 5 章和第 12 章有关”。然后它会生成一组**“引导性线索”**,让检索模型精准地把那些原始片段抓出来。
生成模型(Generation Model)——“博学的表达者”: 最后,像 GPT-4 这种大模型结合了“精准片段”和“全局记忆线索”,给出最终答案。
深度解析:它比普通 RAG 强在哪里?
这是“深蹲”最硬核的部分。研究者设计了 “全局检索” 和 “知识发现” 两个高难度任务。
反直觉的发现: 实验证明,在处理 10 万 Token 以上的任务时,MemoRAG 的表现甚至超过了直接拥有百万窗口的大模型(如 GPT-4o 或 Gemini 1.5 Pro)。
核心优势:
理解“意图”: 传统 RAG 是搜索,MemoRAG 是理解。比如你问“这几篇论文的共同缺陷是什么?”,传统 RAG 搜不到“共同缺陷”这个词;但 MemoRAG 的记忆模型知道所有论文的短板在哪里。
极速响应: 因为记忆是提前压缩好的,AI 回复超长文本问题的时间从“分钟级”缩减到了“秒级”。
Reflective Memory Management (RMM) for Long-term Personalized Dialogue Agents
核心方案:给 AI 装上两面“镜子”
RMM 框架最精妙的地方在于,它不再把记忆看作一个静态的数据库,而是让 AI 学会了两种“反射”动作:往前看(展望)和往后看(回溯)。
1. 展望式反射 (Prospective Reflection) —— “写日记的艺术”
传统的 AI 记忆是“像素级”的,存下的全是废话。RMM 会自动进行多维度的总结。
它怎么做: 它会把对话拆成三个等级——每一句话(词)、每一次回合(段)、每一场聊天(篇)。
类比: 就像你每天晚上不会背诵今天说过的每一句话,而是会写一句日记:“今天和老张聊了编译器的左递归,他很感兴趣。” 这种多粒度的总结,让 AI 以后检索记忆时,既能抓住大轮廓,又能翻出小细节。
2. 回溯式反射 (Retrospective Reflection) —— “考试后的错题本”
这是这篇论文最“Aha!”的突破。研究者引入了 在线强化学习(Online RL)。
它怎么做: 每次 AI 试图从记忆库里找信息来回答你时,它会反思:“我找的这段话真的帮到我回答问题了吗?”
机制: AI 会给自己的检索行为打分。如果这次检索出的信息很有用,它就加强这种检索路径;如果找错了,它就扣分并学习如何改进。
类比: 就像一个正在备考的学生。他不仅仅是在看书(检索),他还在不断反思:“为什么我刚才查那章内容没能解出这道题?”
Aha! 时刻:它不仅记住了,它还“懂”了
实验结果(在 LongMemEval 等高难度测试集上)显示,RMM 让 AI 的准确率提升了超过 10%。
但数据背后的真相更惊人:AI 开始表现出一种“主观能动性”。 由于它在不断地“总结”和“反思”,它存储的不再是冷冰冰的文字,而是关于你的**“知识图谱”**。它知道哪些信息对你更重要,也知道在什么时候该调取哪段记忆。
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
核心方案:MEM1 的“炼金术”
MEM1 的核心突破在于,它不再把“记忆”当成文件的堆砌,而是把记忆看作是**“推理的一部分”**。
1. 恒定内存 (Constant Memory)
这是最让开发者高潮的一点:无论你的任务是跑 10 步还是 100 步,MEM1 占用的内存空间是恒定不变的。
怎么做到的? 它引入了一个 “压缩内部状态”(Compact Internal State)。每一步操作后,AI 都会把新看到的细节和旧的记忆“炼”一遍,只保留最重要的精华,扔掉垃圾。
2. 记忆与推理的“共生” (Synergy)
在 MEM1 里,记忆不再是静态的背景板,而是参与运算的变量。
比喻: 传统的 AI 像是一个**“只会翻旧档案的文员”**,每次都要查半天;
MEM1 像是一个“经验丰富的老中医”。他看你一眼,脑子里就把你之前的病史、刚才的谈话、现在的气色瞬间融合成了“诊断结论”。这个结论本身就是记忆,也是推理。
3. 强化学习“魔鬼训练” (RL)
为了让 AI 学会哪些该记、哪些该丢,团队用了端到端的强化学习。他们不教 AI 具体的规则,而是让它在几千个复杂任务(比如在网页上反复横跳买东西、多步搜索问答)中去撞墙。
AI 很快发现:如果不学着精简信息,它后面就没法思考,任务就会失败,得不到奖励。
Aha! 时刻:以小博大的奇迹
这项研究最激动人心的实验数据是:7B(70 亿参数)的小模型,把 14B 的大模型按在地上摩擦。
战果: 在一个极其复杂的“16 目标多跳问答”任务中,MEM1-7B 的表现比规模大一倍的 Qwen2.5-14B 强了 3.5 倍,而内存占用却只有对方的 1/3 左右。
泛化能力: 最反直觉的是,如果你在 10 步的任务上训练它,它能自动学会处理 20 步的任务。这说明它学会了**“记忆管理的底层逻辑”**,而不是死记硬背。



![[论文阅读]G-OLAP](http://aplainjane.github.io/article/3356482c/wallhaven-7jpjzv_1920x1080.png)

![[论文阅读]GPU-accelerated Database Systems Survey and Open Challenges](http://aplainjane.github.io/article/fbfcc01e/wallhaven-9d3181_1920x1080.png)