科研动态 | 光明实验室生成式大模型团队最新进展:Cappuccino——DeepSeek赋能GUI Agent
  • 发布时间:2025-03-20
  • 作者:光明实验室
  • 浏览:253次

光明实验室生成式大模型团队,推出新的开源项目——Cappuccino,一款能解放双手的本地自动化 GUI Agent,借助 React 框架构建可视化界面,降低部署门槛,提高用户体验。


GUI Agent——Cappuccino

Cappuccino 是一个能操控电脑帮你解决繁琐任务的 GUI Agent,只需一条简单的指令,AI 就能生成详细的任务规划并执行。与解析图片元素或使用浏览器接口的其他现有方案不同,Cappuccino是基于桌面屏幕的纯视觉方案,因为解析元素的过程容易丢失空间关联信息。想要体验Cappuccino,可以直接使用 API 调用 LLM 快速上手,也可以在本地服务器上部署 LLM 以获得更高的安全性。Cappuccino 提供了基于DeepSeek-v3 + Qwen2.5-VL 的纯本地部署方案,DeepSeek 是国产大模型杰出代表,也是 Cappuccino 的重要部分,用户可以在本地局域网部署整套系统,确保数据隐私。


Cappuccino设计架构

我们将 Cappuccino 分为三个部分:模型部署端、服务端、客户端。
● 模型部署端:你可以选择使用 DashScope硅基流动等供应商,或者更安全的本地部署。
● 服务端:GUI Agent,部署在被控制的计算机上,启用 WebSocket 网络服务以接收来自局域网的指令,并结合桌面截图与模型交互,使模型能够输出执行指令或计划。
● 客户端:通过基于 React 构建的 GUI 界面或 Python 脚本向服务器发送人类指令。
对于 GUI Agent 的设计,我们将其分为四部分:规划器、分发器、执行器、校验器。
● 规划器:将用户的复杂指令分解为多个任务,便于逐步执行。
● 分发器:结合桌面屏幕和执行器的功能,将任务拆解为多个子任务并分配给对应的执行器,每个子任务都是一个原子操作(人类操控电脑的最小动作单位,如:点击xx,输入xx)
● 执行器:结合桌面屏幕,基于原子操作生成可用于脚本执行的参数。
● 校验器:根据桌面屏幕判断是否完成了对应的任务。
除此之外,GUI Agent 还有 memory 机制,储存过程中获得的数据,用于进行不同软件之间数据交互。


Cappuccino功能展示

Cappuccino 在电脑部署后,可由脚本或可视化界面发送指令,界面能实时反馈 Agent 的规划方案与执行进度。下方视频展示了让 Cappuccino 获取 Github Trending 信息并整理到 Word 的任务,可以看见,Cappuccino 自动打开了浏览器并找到了所需信息,信息将存储到Cappuccino的 memory 机制中,最后打开 Word 将目标信息输出到文档中。

01:23


项目未来计划

目前Cappuccino的所有代码已在 GitHub 开源,欢迎下载体验,由于项目还在初期,针对不同操作系统的稳定性还在进一步加强,同时欢迎社区开发者一起参与到该开源项目的共建。项目地址:github.com/GML-FMGroup/
随着 Manus 的爆火,大家开始感受到 Agent 的魅力,许多人认为2025年是属于 Agent 的一年,Cappuccino 作为 GUI Agent 的一个解决方案,致力于帮助人们解决繁琐而简单的日常工作。未来,团队将进一步优化 Cappuccino 的表现,适配更多的软件与操作,探索更高效的 Agent 策略。Cappuccino 是一个开源项目,我们会及时将最新进展更新到 Github 中,欢迎大家关注和参与。