拒绝死板提示词！生成式大模型团队开源 CamoClaw：让 AI 智能体在真实业务中“自我进化”

发布时间：2026-03-30
作者：光明实验室
浏览：207次

导语

在实际任务中，智能体面临一个真实的痛点：为智能体（Agent）预设的技能清单再长，也赶不上业务场景的千变万化。每次遇到新需求都要人工反复微调提示词，不仅适配成本极高，也让 AI 沦为了一个需要时刻被“手把手教”的提线木偶。

为了打破这种“能力静态固化”的僵局，生成式大模型团队正式开源了全新的 AI 协作框架 —— CamoClaw。

我们不玩“堆叠提示词”的文字游戏，而是致力于打造一个伴随实践持续演进的自进化协作者。在这里，AI 可以在真实任务的“碰壁”中总结教训，在成功的交付中沉淀经验。

💡 核心机制：如何在实践中长出“真本事”？

CamoClaw 的底层逻辑贴近真实的项目制工作流。它不依赖无差别的盲目训练，而是拥有一套严密的“执行—学习—再执行”闭环：

有条件触发：仅在表现未达预期时进入学习环节，直面真实约束。
从失败中提炼规范：系统不会简单要求“重做”，而是将评估意见、执行轨迹结构化，结合网页知识搜索提炼出可复用的方法与规范（如任务拆解逻辑、自检要点、领域惯例等）。
严格的经验准入机制：提炼出的经验不会立刻被采信。系统会安排再次交付进行验证，只有当新方法被实际采用、且结果得到显著改善时，这些内容才会被正式写入长期技能库，拒绝无效信息的堆积。

📊 10 个真实任务 A/B 测试：让数据证明“进化”的价值

为了验证持续学习机制的有效性，我们在公开数据集上进行了10个真实任务的对照实验（任务顺序一致，初始资金均为 10 美元）：

核心指标	启用持续学习组	未启用组	表现差异
期末净值	1,344 \| 1,049	跃升约 +28%
累计任务报酬	1,335 \| 1,040	跃升约 +28%
经固化的有效经验	13 条	0 条	从 0 到 1 的能力沉淀

🎸 单日案例拆解：一份舞台示意图的进化史

让我们通过一个具体的巡演任务，直观感受 CamoClaw 是如何“吃一堑，长一智”的。

任务要求：为巡演乐队制作单页 PDF 舞台示意图（供音响与场地提前沟通）。

初次尝试（踩坑）：智能体在规范性细节上大量失分。例如，成员位置与要求不符、输入输出信息残缺、监听音箱位置违背了行业惯例，因此获得了较低的系统评分。
结构化反思（记入错题本）：面对低分，CamoClaw 没有盲目重试，而是将评估意见与执行轨迹，结合网页知识搜索，拆解为可复用的流程与交付规范：

落实操作步骤：严格执行“需求对齐 ➡️ 任务拆解 ➡️ 交付前自检”，优先满足刚性约束。
死磕版式约束：明确巡演场景常要求单页便于张贴与流转，多页会导致场地使用障碍。
纠正方位表述：必须采用观众视角的左右方位，并使用“钟面定位”等行业惯例描述音箱位置。
完善列表与交付物：保证输入输出通道表完整可读，图示符号统一，满足工程层面的具体要求。

3.二次交付与能力固化（生成技能卡）：智能体带着总结的方法再次执行。在验证这些方法确实有效、结果显著改善后，系统自动将这些领域 Know-how 提炼为标准化资产，正式写入 CamoClaw 的长期技能库中。

👇 以下是 CamoClaw 真实沉淀的 stage-geography（舞台地理）技能卡片节选：

YAML

---
title: stage-geography（舞台地理）
description: 掌握舞台地理惯例（观众视角、台口/台后、时钟定位），以准确放置所有设备并与场地工作人员清晰沟通。
tags: 
  - Skill: Stage Geography and Positioning Terminology
  - 技能：舞台地理与定位术语
created: 2026-03-24 19:36:08
---

# 技能：舞台地理与定位术语

## 一句话总结
掌握舞台地理惯例（观众视角、台口/台后、时钟定位），以准确放置所有设备并与场地工作人员清晰沟通。

## 何时使用
* 为任何现场演出设置创建舞台布置图
* 定位监听音箱、乐器和乐队成员
* 与音响工程师和场地工作人员沟通
* 使用时钟定位法指定楔形监听音箱位置
* 编写任何巡演乐队技术需求文档

## 舞台地理基础

### 1. 视角规则（关键）
舞台布置图（Stage Plot）通常从**观众视角**绘制。
* **台口（前部 / Downstage）** = 页面底部
* **台后（后部 / Upstage）** = 页面顶部
* **舞台右侧（Stage Right）** = 页面左侧（观众的左侧）
* **舞台左侧（Stage Left）** = 页面右侧（观众的右侧）
···

(通过这种结构化的资产沉淀，AI 下次再遇到任何舞台类任务，都能直接调用该领域的专业视角，彻底告别重复犯错。)

🛠️ 为什么选择 CamoClaw？

我们希望为开发者提供一个更具生命力的框架。CamoClaw 具备以下六大特性：

非固定能力清单：能力随任务流内生迭代，不依赖预设技能全集。
沉淀经检验的能力：仅在再次交付中实际使用且带来改进的经验，才写入技能库，控制无效扩张。
分领域专业评估：不同领域采用相应评判维度，吸收具体、可执行的结构化评价，而非单一分数。
端到端流程：涵盖任务下发、执行、成果提交、按专业标准评估与经济结算，贴近项目制工作流。
经济与成本约束：通过账户、调用成本与任务报酬等机制，促使智能体在成本与质量之间作出合理权衡。
任务贴近真实业务：覆盖多行业、多岗位类型任务，超越纯对话场景。

首轮任务界定能力边界 ➡️ 学习环节将偏差升维为领域规范 ➡️ 后续执行进行对照检验。唯有产生可复核的质量增益时，才沉淀为长期资产。

🚀 立即体验与共建

如果你的项目需要一个随任务实践持续增强能力、不仅能干活还能自己总结方法论的 AI 协作者，CamoClaw 将是你绝佳的选择。

我们是生成式大模型团队，致力于推动大规模语言模型在真实业务场景中的落地与演进，本项目由联合培养学生肖尧完成。目前 CamoClaw 已经全面开源，欢迎各位开发者、研究者前来体验，提交 Issue 或 PR。

👉 GitHub 仓库地址：https://github.com/GML-FMGroup/camoclaw

(点击文末“阅读原文”直达)

🌟 如果觉得这个框架对你有启发，请前往 GitHub 为我们点亮一个 Star！你的支持是我们持续迭代的最大动力。

目前团队正在招聘大模型算法岗位实习生，有意向者可投递简历至：jiangwenhao@gml.ac.cn。

上一篇：深地探路者：光明实验室自主探测感知飞行机器人在地下矿区实测成功

下一篇: OddGridBench:首个可控的细粒度视觉差异识别评测基准