发布时间:2025-03-20
作者:光明实验室
浏览:253次
GUI Agent——Cappuccino
Cappuccino 是一个能操控电脑帮你解决繁琐任务的 GUI Agent,只需一条简单的指令,AI 就能生成详细的任务规划并执行。与解析图片元素或使用浏览器接口的其他现有方案不同,Cappuccino是基于桌面屏幕的纯视觉方案,因为解析元素的过程容易丢失空间关联信息。想要体验Cappuccino,可以直接使用 API 调用 LLM 快速上手,也可以在本地服务器上部署 LLM 以获得更高的安全性。Cappuccino 提供了基于DeepSeek-v3 + Qwen2.5-VL 的纯本地部署方案,DeepSeek 是国产大模型杰出代表,也是 Cappuccino 的重要部分,用户可以在本地局域网部署整套系统,确保数据隐私。
Cappuccino设计架构
我们将 Cappuccino 分为三个部分:模型部署端、服务端、客户端。
● 模型部署端:你可以选择使用 DashScope、硅基流动等供应商,或者更安全的本地部署。
● 服务端:GUI Agent,部署在被控制的计算机上,启用 WebSocket 网络服务以接收来自局域网的指令,并结合桌面截图与模型交互,使模型能够输出执行指令或计划。
● 客户端:通过基于 React 构建的 GUI 界面或 Python 脚本向服务器发送人类指令。
对于 GUI Agent 的设计,我们将其分为四部分:规划器、分发器、执行器、校验器。
● 规划器:将用户的复杂指令分解为多个任务,便于逐步执行。
● 分发器:结合桌面屏幕和执行器的功能,将任务拆解为多个子任务并分配给对应的执行器,每个子任务都是一个原子操作(人类操控电脑的最小动作单位,如:点击xx,输入xx)
● 执行器:结合桌面屏幕,基于原子操作生成可用于脚本执行的参数。
● 校验器:根据桌面屏幕判断是否完成了对应的任务。
除此之外,GUI Agent 还有 memory 机制,储存过程中获得的数据,用于进行不同软件之间数据交互。
Cappuccino功能展示
Cappuccino 在电脑部署后,可由脚本或可视化界面发送指令,界面能实时反馈 Agent 的规划方案与执行进度。下方视频展示了让 Cappuccino 获取 Github Trending 信息并整理到 Word 的任务,可以看见,Cappuccino 自动打开了浏览器并找到了所需信息,信息将存储到Cappuccino的 memory 机制中,最后打开 Word 将目标信息输出到文档中。
项目未来计划
目前Cappuccino的所有代码已在 GitHub 开源,欢迎下载体验,由于项目还在初期,针对不同操作系统的稳定性还在进一步加强,同时欢迎社区开发者一起参与到该开源项目的共建。项目地址:https://github.com/GML-FMGroup/cappuccino
随着 Manus 的爆火,大家开始感受到 Agent 的魅力,许多人认为2025年是属于 Agent 的一年,Cappuccino 作为 GUI Agent 的一个解决方案,致力于帮助人们解决繁琐而简单的日常工作。未来,团队将进一步优化 Cappuccino 的表现,适配更多的软件与操作,探索更高效的 Agent 策略。Cappuccino 是一个开源项目,我们会及时将最新进展更新到 Github 中,欢迎大家关注和参与。