科研动态 | 光明实验室生成式大模型团队最新进展：Cappuccino—

科研动态 | 光明实验室生成式大模型团队最新进展：Cappuccino——DeepSeek赋能GUI Agent

发布时间：2025-03-20
作者：光明实验室
浏览：1469次

光明实验室生成式大模型团队，推出新的开源项目——Cappuccino，一款能解放双手的本地自动化 GUI Agent，借助 React 框架构建可视化界面，降低部署门槛，提高用户体验。

GUI Agent——Cappuccino

Cappuccino 是一个能操控电脑帮你解决繁琐任务的 GUI Agent，只需一条简单的指令，AI 就能生成详细的任务规划并执行。与解析图片元素或使用浏览器接口的其他现有方案不同，Cappuccino是基于桌面屏幕的纯视觉方案，因为解析元素的过程容易丢失空间关联信息。想要体验Cappuccino，可以直接使用 API 调用 LLM 快速上手，也可以在本地服务器上部署 LLM 以获得更高的安全性。Cappuccino 提供了基于DeepSeek-v3 + Qwen2.5-VL 的纯本地部署方案，DeepSeek 是国产大模型杰出代表，也是 Cappuccino 的重要部分，用户可以在本地局域网部署整套系统，确保数据隐私。

Cappuccino设计架构

我们将 Cappuccino 分为三个部分：模型部署端、服务端、客户端。
● 模型部署端：你可以选择使用 DashScope、硅基流动等供应商，或者更安全的本地部署。
● 服务端：GUI Agent，部署在被控制的计算机上，启用 WebSocket 网络服务以接收来自局域网的指令，并结合桌面截图与模型交互，使模型能够输出执行指令或计划。
● 客户端：通过基于 React 构建的 GUI 界面或 Python 脚本向服务器发送人类指令。
对于 GUI Agent 的设计，我们将其分为四部分：规划器、分发器、执行器、校验器。
● 规划器：将用户的复杂指令分解为多个任务，便于逐步执行。
● 分发器：结合桌面屏幕和执行器的功能，将任务拆解为多个子任务并分配给对应的执行器，每个子任务都是一个原子操作（人类操控电脑的最小动作单位，如：点击xx，输入xx）
● 执行器：结合桌面屏幕，基于原子操作生成可用于脚本执行的参数。
● 校验器：根据桌面屏幕判断是否完成了对应的任务。
除此之外，GUI Agent 还有 memory 机制，储存过程中获得的数据，用于进行不同软件之间数据交互。

Cappuccino功能展示

Cappuccino 在电脑部署后，可由脚本或可视化界面发送指令，界面能实时反馈 Agent 的规划方案与执行进度。下方视频展示了让 Cappuccino 获取 Github Trending 信息并整理到 Word 的任务，可以看见，Cappuccino 自动打开了浏览器并找到了所需信息，信息将存储到Cappuccino的 memory 机制中，最后打开 Word 将目标信息输出到文档中。

01:23

项目未来计划

目前Cappuccino的所有代码已在 GitHub 开源，欢迎下载体验，由于项目还在初期，针对不同操作系统的稳定性还在进一步加强，同时欢迎社区开发者一起参与到该开源项目的共建。项目地址：https://github.com/GML-FMGroup/cappuccino
随着 Manus 的爆火，大家开始感受到 Agent 的魅力，许多人认为2025年是属于 Agent 的一年，Cappuccino 作为 GUI Agent 的一个解决方案，致力于帮助人们解决繁琐而简单的日常工作。未来，团队将进一步优化 Cappuccino 的表现，适配更多的软件与操作，探索更高效的 Agent 策略。Cappuccino 是一个开源项目，我们会及时将最新进展更新到 Github 中，欢迎大家关注和参与。