多模态AI工具汇总：实用资源一览

idefics2-8b-chatty-AWQ

HuggingFaceM4/idefics2-8b-chattyGithub

4-bit量化的多模态模型及其应用场景

kosmos-2.5

模型训练文档转换

文本密集型图像处理的多模态模型

OmniGen-v1

Github开源项目

多模态图像生成模型特点与能力

llava-v1.6-vicuna-7b

Github模型

基于Vicuna的开源多模态视觉语言模型

llava-onevision-qwen2-7b-si

Huggingface机器学习

多模态AI模型实现图像和视频的深度理解

llava-next-interleave-qwen-7b-dpo

Huggingface机器学习

多模态数据研究的开源聊天机器人

Anole-7b-v0.1-hf

图文生成深度学习

基于深度学习的多模态文本图像交互生成模型

llava-onevision-qwen2-72b-si

LLaVA-OneVision图像交互

多模态模型提高视觉数据交互准确率

nomic-embed-vision-v1.5

模型训练开源项目

高性能视觉嵌入模型实现多模态共享空间

llava-v1.6-vicuna-13b

视觉问答开源项目

强大的图文多模态AI模型集成Vicuna-13b实现视觉智能对话

nanoLLaVA

Github开源项目

轻量级视觉语言模型实现边缘设备高效部署

MiniCPM-V-2_6-gguf

GithubMiniCPM-V

高性能GGUF格式多模态模型转换与部署指南

Qwen-VL-Chat

视觉语言模型Github

多语言视觉对话模型支持图文交互和物体定位

Chat-UniVi

图像处理开源项目

基于动态视觉令牌的图像视频双模态理解模型

InternVL2-26B

InternVL2大语言模型

全新多模态智能体实现长文本多图像及视频的智能理解

internlm-xcomposer2d5-7b

长文本处理开源项目

7B参数规模实现视觉语言理解和创作的开源多模态模型

pixtral-12b

图像识别机器学习

支持多图片交互分析的开源视觉语言模型

llava-onevision-qwen2-72b-ov-chat

模型人工智能

多模态大语言模型支持图像、多图和视频交互

llava-onevision-qwen2-7b-ov-hf

多模态Huggingface

支持单图多图和视频理解的多模态语言模型

Qwen2-VL-7B-Instruct-GPTQ-Int4

模型图像理解

量化模型支持多分辨率视觉理解

1 2 3 4

探索AI的无限可能

访问

AI工具导航精选AI信息

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com