多模态AI工具汇总:实用资源一览

idefics2-8b-chatty-AWQ

idefics2-8b-chatty-AWQ

HuggingFaceM4/idefics2-8b-chattyGithub

4-bit量化的多模态模型及其应用场景

kosmos-2.5

kosmos-2.5

模型训练文档转换

文本密集型图像处理的多模态模型

OmniGen-v1

OmniGen-v1

Github开源项目

多模态图像生成模型特点与能力

llava-v1.6-vicuna-7b

llava-v1.6-vicuna-7b

Github模型

基于Vicuna的开源多模态视觉语言模型

llava-onevision-qwen2-7b-si

llava-onevision-qwen2-7b-si

Huggingface机器学习

多模态AI模型实现图像和视频的深度理解

llava-next-interleave-qwen-7b-dpo

llava-next-interleave-qwen-7b-dpo

Huggingface机器学习

多模态数据研究的开源聊天机器人

Anole-7b-v0.1-hf

Anole-7b-v0.1-hf

图文生成深度学习

基于深度学习的多模态文本图像交互生成模型

llava-onevision-qwen2-72b-si

llava-onevision-qwen2-72b-si

LLaVA-OneVision图像交互

多模态模型提高视觉数据交互准确率

nomic-embed-vision-v1.5

nomic-embed-vision-v1.5

模型训练开源项目

高性能视觉嵌入模型实现多模态共享空间

llava-v1.6-vicuna-13b

llava-v1.6-vicuna-13b

视觉问答开源项目

强大的图文多模态AI模型 集成Vicuna-13b实现视觉智能对话

nanoLLaVA

nanoLLaVA

Github开源项目

轻量级视觉语言模型实现边缘设备高效部署

MiniCPM-V-2_6-gguf

MiniCPM-V-2_6-gguf

GithubMiniCPM-V

高性能GGUF格式多模态模型转换与部署指南

Qwen-VL-Chat

Qwen-VL-Chat

视觉语言模型Github

多语言视觉对话模型 支持图文交互和物体定位

Chat-UniVi

Chat-UniVi

图像处理开源项目

基于动态视觉令牌的图像视频双模态理解模型

InternVL2-26B

InternVL2-26B

InternVL2大语言模型

全新多模态智能体实现长文本多图像及视频的智能理解

internlm-xcomposer2d5-7b

internlm-xcomposer2d5-7b

长文本处理开源项目

7B参数规模实现视觉语言理解和创作的开源多模态模型

pixtral-12b

pixtral-12b

图像识别机器学习

支持多图片交互分析的开源视觉语言模型

llava-onevision-qwen2-72b-ov-chat

llava-onevision-qwen2-72b-ov-chat

模型人工智能

多模态大语言模型支持图像、多图和视频交互

llava-onevision-qwen2-7b-ov-hf

llava-onevision-qwen2-7b-ov-hf

多模态Huggingface

支持单图多图和视频理解的多模态语言模型

Qwen2-VL-7B-Instruct-GPTQ-Int4

Qwen2-VL-7B-Instruct-GPTQ-Int4

模型图像理解

量化模型支持多分辨率视觉理解