拒绝死板提示词!生成式大模型团队开源 CamoClaw:让 AI 智能体在真实业务中“自我进化”
  • 发布时间:2026-03-30
  • 作者:光明实验室
  • 浏览:15次

导语

在实际任务中,智能体面临一个真实的痛点:为智能体(Agent)预设的技能清单再长,也赶不上业务场景的千变万化。 每次遇到新需求都要人工反复微调提示词,不仅适配成本极高,也让 AI 沦为了一个需要时刻被“手把手教”的提线木偶。

为了打破这种“能力静态固化”的僵局,生成式大模型团队正式开源了全新的 AI 协作框架 —— CamoClaw

我们不玩“堆叠提示词”的文字游戏,而是致力于打造一个伴随实践持续演进的自进化协作者。在这里,AI 可以在真实任务的“碰壁”中总结教训,在成功的交付中沉淀经验。


💡 核心机制:如何在实践中长出“真本事”?

CamoClaw 的底层逻辑贴近真实的项目制工作流。它不依赖无差别的盲目训练,而是拥有一套严密的“执行—学习—再执行”闭环:

  1. 有条件触发:仅在表现未达预期时进入学习环节,直面真实约束。
  2. 从失败中提炼规范:系统不会简单要求“重做”,而是将评估意见、执行轨迹结构化,结合网页知识搜索提炼出可复用的方法与规范(如任务拆解逻辑、自检要点、领域惯例等)。
  3. 严格的经验准入机制:提炼出的经验不会立刻被采信。系统会安排再次交付进行验证,只有当新方法被实际采用、且结果得到显著改善时,这些内容才会被正式写入长期技能库,拒绝无效信息的堆积。

📊 10 个真实任务 A/B 测试:让数据证明“进化”的价值

为了验证持续学习机制的有效性,我们在公开数据集上进行了10个真实任务的对照实验(任务顺序一致,初始资金均为 10 美元):

核心指标 启用持续学习组 未启用组 表现差异
期末净值 **1,344** | 1,049 跃升约 +28%
累计任务报酬 **1,335** | 1,040 跃升约 +28%
经固化的有效经验 13 条 0 条 从 0 到 1 的能力沉淀



🎸 单日案例拆解:一份舞台示意图的进化史

让我们通过一个具体的巡演任务,直观感受 CamoClaw 是如何“吃一堑,长一智”的。

任务要求:为巡演乐队制作单页 PDF 舞台示意图(供音响与场地提前沟通)。

  1. 初次尝试(踩坑):智能体在规范性细节上大量失分。例如,成员位置与要求不符、输入输出信息残缺、监听音箱位置违背了行业惯例,因此获得了较低的系统评分。
  2. 结构化反思(记入错题本):面对低分,CamoClaw 没有盲目重试,而是将评估意见与执行轨迹,结合网页知识搜索,拆解为可复用的流程与交付规范
  • 落实操作步骤:严格执行“需求对齐 ➡️ 任务拆解 ➡️ 交付前自检”,优先满足刚性约束。
  • 死磕版式约束:明确巡演场景常要求单页便于张贴与流转,多页会导致场地使用障碍。
  • 纠正方位表述:必须采用观众视角的左右方位,并使用“钟面定位”等行业惯例描述音箱位置。
  • 完善列表与交付物:保证输入输出通道表完整可读,图示符号统一,满足工程层面的具体要求。

3.二次交付与能力固化(生成技能卡):智能体带着总结的方法再次执行。在验证这些方法确实有效、结果显著改善后,系统自动将这些领域 Know-how 提炼为标准化资产,正式写入 CamoClaw 的长期技能库中。


👇 以下是 CamoClaw 真实沉淀的 stage-geography(舞台地理)技能卡片节选:

YAML

---
title: stage-geography(舞台地理)
description: 掌握舞台地理惯例(观众视角、台口/台后、时钟定位),以准确放置所有设备并与场地工作人员清晰沟通。
tags: 
  - Skill: Stage Geography and Positioning Terminology
  - 技能:舞台地理与定位术语
created: 2026-03-24 19:36:08
---

# 技能:舞台地理与定位术语

## 一句话总结
掌握舞台地理惯例(观众视角、台口/台后、时钟定位),以准确放置所有设备并与场地工作人员清晰沟通。

## 何时使用
* 为任何现场演出设置创建舞台布置图
* 定位监听音箱、乐器和乐队成员
* 与音响工程师和场地工作人员沟通
* 使用时钟定位法指定楔形监听音箱位置
* 编写任何巡演乐队技术需求文档

## 舞台地理基础

### 1. 视角规则(关键)
舞台布置图(Stage Plot)通常从**观众视角**绘制。
* **台口(前部 / Downstage)** = 页面底部
* **台后(后部 / Upstage)** = 页面顶部
* **舞台右侧(Stage Right)** = 页面左侧(观众的左侧)
* **舞台左侧(Stage Left)** = 页面右侧(观众的右侧)
···

(通过这种结构化的资产沉淀,AI 下次再遇到任何舞台类任务,都能直接调用该领域的专业视角,彻底告别重复犯错。)


🛠️ 为什么选择 CamoClaw?

我们希望为开发者提供一个更具生命力的框架。CamoClaw 具备以下六大特性:

  • 非固定能力清单:能力随任务流内生迭代,不依赖预设技能全集。
  • 沉淀经检验的能力:仅在再次交付中实际使用且带来改进的经验,才写入技能库,控制无效扩张。
  • 分领域专业评估:不同领域采用相应评判维度,吸收具体、可执行的结构化评价,而非单一分数。
  • 端到端流程:涵盖任务下发、执行、成果提交、按专业标准评估与经济结算,贴近项目制工作流。
  • 经济与成本约束:通过账户、调用成本与任务报酬等机制,促使智能体在成本与质量之间作出合理权衡。
  • 任务贴近真实业务:覆盖多行业、多岗位类型任务,超越纯对话场景。
首轮任务界定能力边界 ➡️ 学习环节将偏差升维为领域规范 ➡️ 后续执行进行对照检验。唯有产生可复核的质量增益时,才沉淀为长期资产。

🚀 立即体验与共建

如果你的项目需要一个随任务实践持续增强能力、不仅能干活还能自己总结方法论的 AI 协作者,CamoClaw 将是你绝佳的选择。

我们是生成式大模型团队,致力于推动大规模语言模型在真实业务场景中的落地与演进,本项目由联合培养学生肖尧完成。目前 CamoClaw 已经全面开源,欢迎各位开发者、研究者前来体验,提交 Issue 或 PR。

👉 GitHub 仓库地址github.com/GML-FMGroup/

(点击文末“阅读原文”直达)

🌟 如果觉得这个框架对你有启发,请前往 GitHub 为我们点亮一个 Star!你的支持是我们持续迭代的最大动力。

目前团队正在招聘大模型算法岗位实习生,有意向者可投递简历至:jiangwenhao@gml.ac.cn。