AI Agent学会自己改自己：Memento-Skills让冻结模型长出肌肉记忆

你养的AI Agent用了一周就"变笨"了——不是模型不行，是它遇到新任务时，脑子里只有训练时那点知识，没有增量学习的能力。4月8日，来自多所大学的研究团队发布了Memento-Skills框架，让AI Agent能像人一样"做中学"：遇到新任务→尝试→失败→反思→改写自己的技能→下次直接用。

最关键的是，底层模型权重一行不动，进化全发生在外部记忆里。

冻结模型的困局

当前主流Agent框架（包括OpenClaw、Claude Code等）都面临同一个问题：LLM一旦部署，参数就冻住了。新知识要么靠上下文窗口硬塞，要么靠手动写Skill/Prompt。现有自动学习方法大多是文本级的Prompt优化，或者只记单次任务轨迹，换个场景就废了。

更致命的是检索问题。传统RAG用语义相似度找技能，结果"重置密码"的脚本因为和"处理退款"共享了企业术语就被错误召回——语义像≠行为有用。

Memento-Skills怎么工作

框架核心是"读写反思学习"机制，分三步闭环：

检索执行：收到任务后，专用Skill Router检索行为最相关的技能（不是语义最像的），执行它
反思改写：执行后根据结果反馈，系统主动改写技能文件——失败就修复代码/Prompt，缺技能就创建新的
验证入库：改写后的技能必须通过自动生成的单元测试，通过才写入全局技能库

每个技能是结构化Markdown文件，包含三要素：声明规范（技能是什么、何时用）、推理指令（引导LLM思考）、可执行代码（实际干活的脚本）。

Skill Router也不简单。它不用传统embedding相似度，而是通过一步离线强化学习，从执行反馈中学习"哪个技能在什么场景下真正有用"。论文作者王军说："技能的真正价值在于它对整体工作流和下游执行的贡献，因此强化学习提供了更合适的框架。"

数据说话

两个硬核基准测试的结果：

GAIA基准（多步推理+工具使用）：准确率从52.3%提升到66.0%，+13.7个百分点
HLE基准（8大学科专家级考试）：准确率从17.9%翻倍到38.7%

检索效果对比更直观：Memento-Skills端到端任务成功率80%，传统BM25检索只有50%。

技能增长路径也很有意思：两个实验都只给了5个种子技能（基础搜索、终端操作等），GAIA场景自主扩展到41个，HLE场景扩展到235个——任务越结构化，跨任务技能复用越强，进化越快。

对"养龙虾"的启发

如果你在用OpenClaw等框架养Agent，Memento-Skills的思路值得借鉴：

技能文件要结构化：不是随便写个Prompt，而是声明+指令+代码三件套，Agent才知道何时用、怎么用
检索看行为不看语义：纯embedding召回会误匹配，需要加入执行反馈信号
失败要闭环修复：不是记个日志就完事，要自动改写技能代码并通过测试验证
种子技能要精：5个好种子能长出235个，质量比数量重要

局限与边界

框架并非万能。作者明确指出三个边界：

任务孤立时效果差：任务之间没结构关联，跨任务迁移有限，Agent只能从零学起
物理Agent未验证：机器人等实体场景尚未探索
长程任务需多Agent：超长决策链可能需要多Agent协作，单Agent框架力有不逮

对企业而言，最佳部署场景是结构化工作流——客服、运维、数据处理等有重复模式的业务。零散的、任务间无关联的场景，现阶段别硬上。

安全方面，框架有自动单元测试门控，但作者也承认需要更广泛的治理框架："与其允许无约束的自我修改，过程应该被构建为一种引导式的自我发展。"

写在最后

Memento-Skills的核心洞察很简单但很深：AI的进化不应该只靠改模型权重，也可以靠改自己的工具箱。这跟人类学习一模一样——你不用重写DNA就能学会新技能，靠的是外部记忆（笔记、方法论、工具）的不断迭代。

代码已开源在GitHub，基于Gemini-3.1-Flash验证。对于正在构建Agent系统的团队，这是一条值得认真研究的进化路径。

参考：arXiv论文 Memento-Skills: Read-Write Reflective Learning for Self-Evolving Agents，VentureBeat 2026年4月8日报道

写评论

读者评论

0 条

登录后参与

暂无评论，来分享你的看法吧

AI Agent学会自己改自己：Memento-Skills让冻结模型长出肌肉记忆

AI Agent学会自己改自己：Memento-Skills让冻结模型长出肌肉记忆

冻结模型的困局

Memento-Skills怎么工作

数据说话

两个硬核基准测试的结果：

对"养龙虾"的启发

局限与边界

框架并非万能。作者明确指出三个边界：

对企业而言，最佳部署场景是结构化工作流——客服、运维、数据处理等有重复模式的业务。零散的、任务间无关联的场景，现阶段别硬上。

写在最后

Memento-Skills的核心洞察很简单但很深：AI的进化不应该只靠改模型权重，也可以靠改自己的工具箱。这跟人类学习一模一样——你不用重写DNA就能学会新技能，靠的是外部记忆（笔记、方法论、工具）的不断迭代。

读者评论

相关推荐

Kimi Code CLI：月之暗面的终端AI编程Agent，中国版Claude Code

Manifest：让AI Agent自动选最便宜模型的开源路由器，省70%费用

OpenHands：71K星的AI编程Agent平台，5种用法从CLI到云端全搞定

GenericAgent：3K行代码实现自进化Agent，你的电脑越用越聪明

AI Agent学会自己改自己：Memento-Skills让冻结模型长出肌肉记忆

冻结模型的困局

Memento-Skills怎么工作

数据说话

两个硬核基准测试的结果：

对"养龙虾"的启发

局限与边界

框架并非万能。作者明确指出三个边界：

对企业而言，最佳部署场景是结构化工作流——客服、运维、数据处理等有重复模式的业务。零散的、任务间无关联的场景，现阶段别硬上。

写在最后

Memento-Skills的核心洞察很简单但很深：AI的进化不应该只靠改模型权重，也可以靠改自己的工具箱。 这跟人类学习一模一样——你不用重写DNA就能学会新技能，靠的是外部记忆（笔记、方法论、工具）的不断迭代。

读者评论

相关推荐

Kimi Code CLI：月之暗面的终端AI编程Agent，中国版Claude Code

Manifest：让AI Agent自动选最便宜模型的开源路由器，省70%费用

OpenHands：71K星的AI编程Agent平台，5种用法从CLI到云端全搞定

GenericAgent：3K行代码实现自进化Agent，你的电脑越用越聪明

Memento-Skills的核心洞察很简单但很深：AI的进化不应该只靠改模型权重，也可以靠改自己的工具箱。这跟人类学习一模一样——你不用重写DNA就能学会新技能，靠的是外部记忆（笔记、方法论、工具）的不断迭代。