ScreenAgent

ScreenAgent

由视觉语言大模型驱动的电脑控制工具

ScreenAgent项目创建了一个由视觉语言模型驱动的电脑控制环境，允许代理通过截图与真实屏幕互动并操作GUI。自动控制流程分为规划、执行和反思三个阶段，使代理能够完成多步骤任务。项目包含丰富的截图和操作序列数据集，支持包括GPT-4V、LLaVA-1.5、CogAgent和ScreenAgent在内的多种模型，并提供简化体验的网页版客户端。

ScreenAgentVLM AgentIJCAI 2024自动控制数据集Github开源项目

ScreenAI

ScreenAI

深度理解界面和信息图的视觉语言模型

AppAgent

AppAgent

智能代理框架简化智能手机应用操作

vision-agent

vision-agent

AI代码生成Github

开源AI代理库用于生成计算机视觉代码

cogagent-chat-hf

cogagent-chat-hf

视觉多轮对话及GUI代理开源模型

AgentLLM

AgentLLM

AgentLLMChatGPT

用LLM打造自主代理，浏览器端高效运行

MobileAgent

MobileAgent

移动设备多模态操作助手

SeeAct

SeeAct

GPT-4V(ision)Github

基于多模态GPT模型的网页任务自动化解决方案

OmAgent

OmAgent

多模态智能代理系统实现复杂视频理解

Best-AI-Agents

Best-AI-Agents

顶尖AI代理实现创新自动化和智能任务执行

XAgent

XAgent

开源的实验性大型语言模型驱动的自主代理

探索AI的无限可能

访问

AI工具导航精选AI信息

推荐工具精选

TRAE编程

TRAE编程

AI辅助编程，代码自动修复

扣子-AI办公

扣子-AI办公

职场AI，就用扣子

码上飞

码上飞

零代码AI应用开发平台

商汤小浣熊

商汤小浣熊

最强AI数据分析助手

讯飞绘文

讯飞绘文

选题、配图、成文，一站式创作，让内容运营更高效

讯飞绘镜

讯飞绘镜

描述即创作，短视频轻松生成

iTerms

iTerms

企业专属的AI法律顾问

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信公众号二维码

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号