由视觉语言大模型驱动的电脑控制工具
ScreenAgent项目创建了一个由视觉语言模型驱动的电脑控制环境,允许代理通过截图与真实屏幕互动并操作GUI。自动控制流程分为规划、执行和反思三个阶段,使代理能够完成多步骤任务。项目包含丰富的截图和操作序列数据集,支持包括GPT-4V、LLaVA-1.5、CogAgent和ScreenAgent在内的多种模型,并提供简化体验的网页版客户端。
深度理解界面和信息图的视觉语言模型
智能代理框架简化智能手机应用操作
开源AI代理库用于生成计算机视觉代码
视觉多轮对话及GUI代理开源模型
用LLM打造自主代理,浏览器端高效运行
移动设备多模态操作助手
基于多模态GPT模型的网页任务自动化解决方案
多模态智能代理系统实现复杂视频理解
顶尖AI代理实现创新自动化和智能任务执行
开源的实验性大型语言模型驱动的自主代理
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号