前言

毕设进度基本上差不多了，接下来就是先探索一下接下来的研究领域力！

在完成毕设的过程中涉猎了下agent开发的相关领域，在兴趣上还是挺契合的，前些天看了下一些相关进展，但是没有动笔记录下来，还是会浅浅略过，过一眼就忘，还是得在阅读过程中顺带记录一下，并且时间上也不是特别连续，下一次就忘了这一次干了什么事情了……

话不多说，开始笔记。

Gemini的调研

核心科研趋势一：自进化智能体（Self-Evolving Agents）的范式确立
核心科研趋势二：通信协议的标准化与“智能体互联网”
2025 年的协议综述提出了一套系统的分类标准，将现有协议分为面向上下文（Context-Oriented）与智能体间（Inter-Agent）两个维度，并区分为通用型与领域特定型

协议名称	开发者/机构	分类维度	核心创新点与技术路径
Model Context Protocol (MCP)	Anthropic	面向上下文、通用型	标准化智能体与外部资源（如文件、工具、数据库）的连接。采用客户端-服务器架构，将复杂任务抽象为资源获取与工具调用。
Agent-to-Agent (A2A)	Google	智能体间、通用型	侧重于生态系统内部（如企业内部）智能体的深度协作。允许智能体间直接建立依赖关系，降低通信开销，提升集体推理能力。
Agent Network Protocol (ANP)	ANP Community	智能体间、通用型	关注跨域、去中心化的智能体互操作。利用 JSON-LD 和分布式身份标识（DID）解决跨安全边界的信任与协作问题。
LOKA	Ranjan et al.	领域特定、伦理协作	专注于去中心化的伦理协调协议（DECP），利用可验证凭证（VC）确保智能体行为符合道德规范。

核心科研趋势三：小语言模型（SLM）与架构效率的优化
NeurIPS 2025 的获奖论文《Gated Attention for Large Language Models》提出了一种对 Transformer 架构的简单改进，即在缩放点积注意力（SDPA）后引入头特定的 sigmoid 门控。
核心科研趋势四：推理时计算扩展（Test-Time Compute Scaling）
核心科研趋势五：多智能体协作与大规模编排
MegaAgent 与自主 SOP 生成
MOAT 框架

近期热点：

数据流控制（Data Flow Control, DFC）： 研究如何在 Agent 自动化流程中嵌入策略引擎（如 FlowGuard），防止 Agent 在处理大数据时违反隐私法规或导致流程污染。

Agentic Speculation（代理投机）： 针对海量数据湖，智能体不再全量读取，而是通过元数据探测和子集采样快速评估数据价值，优化查询代价。

上下文工程（Context Engineering）： 取代传统的 Prompt Engineering，研究如何为 Agent 构建高效的 3D 场景记忆、文件系统映射或语义微缓存。

数据科学基准 DSBench： ICLR 2025 发布了涵盖 540 个 Kaggle 真实任务的基准，目前人类成功率远超 Agent（34%），这是接下来的攻坚核心。

比较感兴趣的方向点

上下文工程（Context Engineering）
深度 agent（深度推理与统一架构（Deep Reasoning Architectures））
数据流控制（Data Flow Control, DFC）

上下文工程

毕设中实现了一个简易的结构，首先是将 agent 拆分，单模型不使用所有 prompt ，而是转为监管者、计划者、以及工人执行者，在这情况下，通过计划者进行计划拆分，接着监管者通过判断计划分配情况持续推进，工人每次仅获取当前步骤的 prompt，将 prompt 切分，工人的执行环境相对独立，使得工人工作时产生的 prompt 成为短时记忆，占据的 prompt 将不会成为共同记忆。

查看了这方面的材料后，大概理解当前研究方向主要是有多种：

A. 代理化上下文工程（Agentic Context Engineering）

智能体不再一次性读取所有规则，而是通过**“渐进式披露（Progressive Disclosure）”**，根据当前任务进度动态检索和构建上下文。

代表技术：CEA（Context Engineering Agent）。这类架构会专门配置一个“上下文管理副官”，实时压缩历史记录、提取关键线索，并确保送入主模型的 Token 是最高信号的。

B. 递归语言模型（Recursive Language Models, RLM）

这是 MIT 在 2025 年底提出的重大突破。RLM 将 Prompt 视为一种**“外部变量”**存储在 Python 环境中。

创新点： 模型不再直接“读”Prompt，而是像工程师操作数据库一样，通过代码指令（如 read_lines(5000-6000)或 regex_search()）来切片和调用上下文。这使得处理 1000 万 Token 任务的成本降低了 60% 以上。

C. 标准化上下文协议（Model Context Protocol, MCP）

Anthropic 在 2025 年推行的 MCP 协议已成为行业标准。它将智能体与外部资源（文件、数据库、工具）的连接标准化。

变革： 你不需要把数据注入 Prompt，而是给模型一个“USB-C 接口”。模型按需调用外部上下文，实现了“外部大脑”的即插即用，彻底解决了 Prompt 臃肿问题。

论文标题	来源/期刊	核心创新点	解决的关键问题
Recursive Language Models (RLM)	arXiv:2512.24601 (MIT)	将提示词视为外部变量；递归自我调用机制；基于REPL的编程化处理。	突破物理窗口限制，解决复杂推理下的注意力崩溃。
InfiAgent: An Infinite-Horizon Framework	ICLR 2026 Submission	文件中心状态抽象（File-centric State）；将长期记忆外部化至文件系统。	自主智能体在长周期任务中的状态饱和与循环报错。
Agent0: Unleashing Self-Evolving Agents	arXiv Nov 2025	课程智能体与执行智能体的共生竞争；ADPO算法；零人工数据自我进化。	减少对高质量人工标注数据的依赖。
Context Engineering Agent (CEA)	ICLR 2026 Submission	线索备忘录（Clues Memo）；上下文工程强化学习（CERL）；错误过滤训练。	提升深层研究任务中的上下文利用率与稳定性。
MemAgent: Overwrite Strategy	ICLR 2026 Submission	基于强化学习的内存覆盖策略；3.5M Token的外推能力。	解决极长文本处理中的内存溢出与性能衰减。

2025 - ai顶会发表的关于 agent 的论文：

A-Mem: Agentic Memory for LLM Agents

内容： 基于卢曼卡片盒笔记法（Zettelkasten）的结构化记忆网络，支持记忆的动态索引、链接和进化。
会议： NeurIPS 2025
链接：A-Mem: Agentic Memory for LLM Agents

MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation

内容： 提出了双层记忆架构（全局记忆 + 局部检索），解决了模糊查询和长文本理解问题。
会议： TheWebConf 2025 (WWW ‘25)
链接： arXiv:2409.05591s

Reflective Memory Management (RMM) for Long-term Personalized Dialogue Agents

内容： 引入了“前瞻性”和“回顾性”反思机制，通过在线强化学习动态优化记忆检索策略。
会议： ACL 2025 (Long Paper)
链接： ACL Anthology

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

内容： 提出“恒定记忆流”概念，训练 Agent 将记忆作为推理的一部分，在固定 Token 预算内维持长期状态。
会议： NeurIPS 2025 Workshop / COLM 2025
链接： arXiv:2506.15841

论文整理

Recursive Language Models (RLM)

RLM 的核心发现其实非常反直觉：想要 AI 读得更长，就得让它少读点。

研究团队提出了一套名为 “递归语言模型” 的新玩法。他们把那超长的、几千万字的文本，不再看作是“要喂给 AI 的饲料”，而是看作一个**“外部环境”**。

打个比方： 传统的 AI 像是一个**“搬运工”，试图把整个图书馆搬进脑子里再干活。而 RLM 像是一个“带电脑的管理员”**。

它的秘密武器： 一个 Python 运行环境（REPL）。

它的工作流程： 1. 当面对 1000 万字的资料时，RLM 不去硬读。 2. 它先写一段 Python 代码，像搜索雷达一样，把这千万字切成无数个小片段（Snippet）。 3. 它观察这些片段，如果发现某个地方有线索，它就**“递归地”**（就是自己叫自己）去深入阅读那个具体的片段。 4. 最后，它把所有搜集到的小零件拼接起来，交出答案。

这就是递归的力量： 它不是在“阅读”长文，而是在“编程”自己的阅读路径。

疑似 mcp 思想，但却是 2025-12 才写的

InfiAgent: An Infinite-Horizon Framework

核心方案：别把大脑当硬盘，学会“断舍离”

InfiAgent 的核心逻辑非常简单且优雅：别让 AI 的脑子里塞满历史，让它学会看“桌面”。

这种方法被称为 “状态外部化”（State Externalization）。

💡 绝妙的类比：

想象你在厨房里做满汉全席。

传统 AI 的做法： 试图在大脑里背诵所有菜谱、记得每一颗盐放下的时间、记得每个碗洗了几遍。随着菜做得越多，大脑越容易宕机。

InfiAgent 的做法： 它给自己准备了一个**“工作台”（Workspace）。每切好一盘菜，就把它放在桌子上并贴个标签。它的脑子里永远只关注：“我现在要做哪道菜？”** 和 “桌子上目前有什么？”

它是怎么做的？

文件中心化（File-centric）： AI 不再试图把所有中间结果塞进对话历史，而是把它们保存为文件（比如代码运行结果、提取的文本摘要）。
动态重建（Context Reconstruction）： 每次 AI 要说话时，它只看**“工作台当前的快照”加上“最近的一小段动作”**。
严格边界（Strictly Bounded）： 无论这个任务干了一小时还是一个月，AI 每次处理的信息量是恒定的。

Aha! 时刻：20B 模型如何“以小博大”？

这项研究最令人兴奋的发现是：稳定，比强大更重要。

团队在 DeepResearch（深度研究任务）和“80 篇论文综述”这类变态级任务上进行了测试。结果发现：

20B 的开源小模型，配上 InfiAgent 框架后，其长程任务的完成度和准确率，竟然可以和 GPT-4o 这样庞大的闭源系统正面硬刚。

更强的一致性： 因为上下文被严格限制，AI 不会被自己之前的废话误导，哪怕任务持续几百步，它依然保持清醒。

Context Engineering Agent (CEA)

CEA：AI 界的“金牌大管家”

论文提出的方案叫 CEA（Context Engineering Agent，上下文工程智能体）。它不再让大模型一个人孤军奋战，而是引入了一个专门负责“管理记忆”的秘书。

这个秘书把 AI 的脑海空间（Context）精密地拆成了四个抽屉：

任务查询 (Task Query)： 永远别忘了“我们最初是要干嘛”。
动态计划 (Dynamic Plan)： 现在的进度到哪了？下一步该看哪份文件？
历史记忆 (Historical Memory)： 刚才走过的弯路要记住，别再跑一遍。
语义事实 (Semantic Facts)： 那些被确认的硬核结论，要单独拎出来。

核心突破：它不仅会分类，它还被“毒打”过

如果只是分四个抽屉，那叫“模板”，不叫“智能”。CEA 真正厉害的地方在于它背后的训练方法：CERL (Context Engineering RL)。

研究团队发现，AI 之所以会犯错，往往是因为它**“看漏了关键线索”或者“被过时的信息误导”**。于是，他们设计了一套特殊的强化学习方案：

错误溯源： 当 AI 在最后的调研结论上出错时，CERL 会像复盘棋局一样往回找，看看是哪个阶段的上下文管理出了问题。

定向奖励： 只有当 AI 学会了如何精准提取线索、剔除废话、保持上下文“干干净净”时，它才会获得高分奖励。

这就是它的 Aha! 时刻： 它不是在学习如何“写报告”，而是在学习如何**“管理自己的注意力”**。

MemAgent: Overwrite Strategy

MemAgent 的研究者们（来自顶尖学术团队）有了一个执念： 既然人类可以通过练习来决定哪些信息该记、哪些该忘，为什么不能让 AI 也通过**“强化学习（RL）”**来练出这种直觉呢？

核心方法：给 AI 装上“记忆过滤器”

MemAgent 的思路非常硬核，但我们可以把它拆解为一个简单的过程：“考试、反思、进步”。

多卷积结构（Multi-Conv）——“敏锐的眼睛”： MemAgent 并不是逐字阅读，它用了一种类似“卷积”的技术（就像拍照时的滤镜），能够快速扫视长文本，捕捉到那些局部最关键的特征（比如某个特定的公式、人名或转折点）。
强化学习（RL）——“大脑的奖惩”： 这是 MemAgent 最聪明的地方。它在处理长任务时，会不断尝试：“我把这段信息存进记忆里对不对？” 如果它存了这段信息后，成功回答了后面的难题，系统就给它一个**“奖励”**。
如果它存了一堆废话导致后面由于空间不足而忘掉了关键线索，系统就给它一个**“惩罚”**。

比喻一下： MemAgent 就像一个正在准备 10 小时超长闭卷考试的学生。他手里只有一张 A4 纸（记忆空间）可以写小抄。刚开始他乱写，结果考砸了。经过几千次模拟考试，他终于练出了一种神技：一眼看过去就知道哪句话是考点，哪句话是废话，并精准地把考点抄在 A4 纸上。

A-Mem: Agentic Memory for LLM Agents

能不能让 AI 抛弃那种“死记硬背”的查表方式，学会像人脑一样进行“神经联想”？

核心方案：给 AI 装上一个“神经检索器”

A-mem 的核心就是把 AI 的记忆系统，从“线性查找”升级为了 “联想检索（Associative Memory）”。

1. 放弃“全量携带”，改用“按需提取”

现在的长文本模型（Long-context LLMs）之所以贵，是因为它得把成千上万个 KV（键值对）一直放在显存里“烧”。 A-mem 引入了一个外挂的神经记忆模块。它把庞大的信息存在外面，模型在处理任务时，只通过一个“联想键”去外面“抓”最相关的片段。

2. 联想的秘诀：霍普菲尔德网络（Hopfield Networks）

论文引入了现代霍普菲尔德网络的思想。你可以把它想象成一个**“带有引力的记忆黑洞”**：

当一个新线索（Query）出现时，它会被吸向记忆库中最相似的那个点。

这种吸附过程是在高维数学空间里瞬间完成的，不需要像以前那样一个一个去数。

Aha! 时刻：它不仅记住了，还“进化”了

A-mem 带来的最震撼的发现是：这种联想机制，其实是一种超高效的“在线学习”。

真正的“过目不忘”： 实验显示，A-mem 在处理长达 10 万 Token 以上的任务时，其检索精度远远超过了传统的压缩方法。

零成本适配（In-context Adaptation）： 传统模型要学新东西得“微调”（训练），很费劲。A-mem 只要把新知识塞进联想库，模型在对话中就能立刻学会并运用这些知识，表现得就像它本来就知道一样。

最直观的 Takeaway 是： A-mem 让 AI 的记忆从“静态的仓库”变成了“流动的思维”。它不再是把书背下来，而是把书变成了一种可以随时调用的“本能”。

MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation

核心方案：MemoRAG 的“双脑模式”

MemoRAG 的绝活儿就在于它把 AI 的大脑分成了两部分，这和我们大脑的“快速直觉”与“深度思考”很像：

记忆模型（Memory Model）——“小而快的导航员”： 这是一个经过特殊训练的小模型（通常只有几 B 参数）。它的任务不是精确背诵，而是对超长文本进行**“降维压缩”**，生成一套“全局记忆”。
Aha! 时刻： 它就像一个极其高明的书评人。你把 100 万字丢给它，它不记每个字，但它记住了整本书的骨架、逻辑流和知识点分布。
检索模型（Retrieval Model）——“精准的搬运工”： 当用户问一个问题时，记忆模型先在自己的“脑子”里过一遍，定位到：“哦，这个问题跟第 5 章和第 12 章有关”。然后它会生成一组**“引导性线索”**，让检索模型精准地把那些原始片段抓出来。
生成模型（Generation Model）——“博学的表达者”： 最后，像 GPT-4 这种大模型结合了“精准片段”和“全局记忆线索”，给出最终答案。

深度解析：它比普通 RAG 强在哪里？

这是“深蹲”最硬核的部分。研究者设计了 “全局检索” 和 “知识发现” 两个高难度任务。

反直觉的发现： 实验证明，在处理 10 万 Token 以上的任务时，MemoRAG 的表现甚至超过了直接拥有百万窗口的大模型（如 GPT-4o 或 Gemini 1.5 Pro）。

核心优势：

理解“意图”： 传统 RAG 是搜索，MemoRAG 是理解。比如你问“这几篇论文的共同缺陷是什么？”，传统 RAG 搜不到“共同缺陷”这个词；但 MemoRAG 的记忆模型知道所有论文的短板在哪里。

极速响应： 因为记忆是提前压缩好的，AI 回复超长文本问题的时间从“分钟级”缩减到了“秒级”。

Reflective Memory Management (RMM) for Long-term Personalized Dialogue Agents

核心方案：给 AI 装上两面“镜子”

RMM 框架最精妙的地方在于，它不再把记忆看作一个静态的数据库，而是让 AI 学会了两种“反射”动作：往前看（展望）和往后看（回溯）。

1. 展望式反射 (Prospective Reflection) —— “写日记的艺术”

传统的 AI 记忆是“像素级”的，存下的全是废话。RMM 会自动进行多维度的总结。

它怎么做： 它会把对话拆成三个等级——每一句话（词）、每一次回合（段）、每一场聊天（篇）。

类比： 就像你每天晚上不会背诵今天说过的每一句话，而是会写一句日记：“今天和老张聊了编译器的左递归，他很感兴趣。” 这种多粒度的总结，让 AI 以后检索记忆时，既能抓住大轮廓，又能翻出小细节。

2. 回溯式反射 (Retrospective Reflection) —— “考试后的错题本”

这是这篇论文最“Aha!”的突破。研究者引入了 在线强化学习（Online RL）。

它怎么做： 每次 AI 试图从记忆库里找信息来回答你时，它会反思：“我找的这段话真的帮到我回答问题了吗？”

机制： AI 会给自己的检索行为打分。如果这次检索出的信息很有用，它就加强这种检索路径；如果找错了，它就扣分并学习如何改进。

类比： 就像一个正在备考的学生。他不仅仅是在看书（检索），他还在不断反思：“为什么我刚才查那章内容没能解出这道题？”

Aha! 时刻：它不仅记住了，它还“懂”了

实验结果（在 LongMemEval 等高难度测试集上）显示，RMM 让 AI 的准确率提升了超过 10%。

但数据背后的真相更惊人：AI 开始表现出一种“主观能动性”。 由于它在不断地“总结”和“反思”，它存储的不再是冷冰冰的文字，而是关于你的**“知识图谱”**。它知道哪些信息对你更重要，也知道在什么时候该调取哪段记忆。

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

核心方案：MEM1 的“炼金术”

MEM1 的核心突破在于，它不再把“记忆”当成文件的堆砌，而是把记忆看作是**“推理的一部分”**。

1. 恒定内存 (Constant Memory)

这是最让开发者高潮的一点：无论你的任务是跑 10 步还是 100 步，MEM1 占用的内存空间是恒定不变的。

怎么做到的？ 它引入了一个 “压缩内部状态”（Compact Internal State）。每一步操作后，AI 都会把新看到的细节和旧的记忆“炼”一遍，只保留最重要的精华，扔掉垃圾。

2. 记忆与推理的“共生” (Synergy)

在 MEM1 里，记忆不再是静态的背景板，而是参与运算的变量。

比喻： 传统的 AI 像是一个**“只会翻旧档案的文员”**，每次都要查半天；

MEM1 像是一个“经验丰富的老中医”。他看你一眼，脑子里就把你之前的病史、刚才的谈话、现在的气色瞬间融合成了“诊断结论”。这个结论本身就是记忆，也是推理。

3. 强化学习“魔鬼训练” (RL)

为了让 AI 学会哪些该记、哪些该丢，团队用了端到端的强化学习。他们不教 AI 具体的规则，而是让它在几千个复杂任务（比如在网页上反复横跳买东西、多步搜索问答）中去撞墙。

AI 很快发现：如果不学着精简信息，它后面就没法思考，任务就会失败，得不到奖励。

Aha! 时刻：以小博大的奇迹

这项研究最激动人心的实验数据是：7B（70 亿参数）的小模型，把 14B 的大模型按在地上摩擦。

战果： 在一个极其复杂的“16 目标多跳问答”任务中，MEM1-7B 的表现比规模大一倍的 Qwen2.5-14B 强了 3.5 倍，而内存占用却只有对方的 1/3 左右。

泛化能力： 最反直觉的是，如果你在 10 步的任务上训练它，它能自动学会处理 20 步的任务。这说明它学会了**“记忆管理的底层逻辑”**，而不是死记硬背。