多模态AI工具汇总:实用资源一览

Vidu

Vidu

AI工具Vidu

高效视频生成平台,支持文本与图像转换成视频

ultravox-v0_4

ultravox-v0_4

模型语音识别

结合语音与文本处理的多模态模型

LanguageBind_Audio

LanguageBind_Audio

语义对齐公开源码

语言驱动的多模态预训练解决方案

VILA1.5-13b

VILA1.5-13b

VILAGithub

多图像推理与跨设备应用的视觉语言模型

Llama-3.1-Unhinged-Vision-8B-GGUF

Llama-3.1-Unhinged-Vision-8B-GGUF

Meta Llama 3.1多模态

新的多模态内容处理AI模型

Qwen2-VL-72B-Instruct-GPTQ-Int8

Qwen2-VL-72B-Instruct-GPTQ-Int8

视觉理解Qwen2-VL

改进视觉和文本处理能力的多模态模型

MiniCPM-V-2

MiniCPM-V-2

场景文本理解MiniCPM-V

多模态语言模型,支持跨平台高效部署

Lumina-mGPT-7B-768

Lumina-mGPT-7B-768

开源项目模型

自回归多模态模型在图像生成和语言任务中的应用

Qwen2-VL-7B-Instruct-GPTQ-Int8

Qwen2-VL-7B-Instruct-GPTQ-Int8

自动操作Qwen2-VL

Qwen2-VL模型:支持多语言的视觉理解与设备自动化

InternVL2-40B

InternVL2-40B

场景文本理解视觉理解

强化跨模态大语言模型的能力

Ovis1.6-Gemma2-9B

Ovis1.6-Gemma2-9B

图像处理Github

Ovis1.6-Gemma2-9B开源多模态大语言模型的嵌入对齐解决方案

layoutlmv2-large-uncased

layoutlmv2-large-uncased

开源项目模型

提升多模态文档处理能力的先进预训练模型

llava-v1.6-vicuna-13b-hf

llava-v1.6-vicuna-13b-hf

图像文本问答生成优化

多模态聊天机器人:增强图像识别和常识推理能力

Idefics3-8B-Llama3

Idefics3-8B-Llama3

Huggingface模型优化

提升视觉文本处理能力的多模态模型

Qwen2-VL-2B-Instruct-GPTQ-Int4

Qwen2-VL-2B-Instruct-GPTQ-Int4

机器人人工智能视频理解

Qwen2-VL推动多模态与自动化的跨语言视觉处理进步

llava-v1.6-34b

llava-v1.6-34b

自然语言处理计算机视觉

大规模多模态模型的开源项目介绍

InternVL2-2B-AWQ

InternVL2-2B-AWQ

开源项目图像文本

跨多语言多图像任务的高效视觉语言模型

MobileVLM-1.7B

MobileVLM-1.7B

多模态MobileVLM

移动设备优化的高效多模态视觉语言模型

llava-next-interleave-qwen-7b

llava-next-interleave-qwen-7b

开源项目模型

研究大规模多模态与聊天机器人的开源自回归语言模型

flava-full

flava-full

模型限制开源项目

FLAVA模型的零样本图像和文本检索能力