多模态AI工具汇总：实用资源一览

Vidu

AI工具Vidu

高效视频生成平台，支持文本与图像转换成视频

ultravox-v0_4

模型语音识别

结合语音与文本处理的多模态模型

LanguageBind_Audio

语义对齐公开源码

语言驱动的多模态预训练解决方案

VILA1.5-13b

VILAGithub

多图像推理与跨设备应用的视觉语言模型

Llama-3.1-Unhinged-Vision-8B-GGUF

Meta Llama 3.1多模态

新的多模态内容处理AI模型

Qwen2-VL-72B-Instruct-GPTQ-Int8

视觉理解Qwen2-VL

改进视觉和文本处理能力的多模态模型

MiniCPM-V-2

场景文本理解MiniCPM-V

多模态语言模型，支持跨平台高效部署

Lumina-mGPT-7B-768

开源项目模型

自回归多模态模型在图像生成和语言任务中的应用

Qwen2-VL-7B-Instruct-GPTQ-Int8

自动操作Qwen2-VL

Qwen2-VL模型：支持多语言的视觉理解与设备自动化

InternVL2-40B

场景文本理解视觉理解

强化跨模态大语言模型的能力

Ovis1.6-Gemma2-9B

图像处理Github

Ovis1.6-Gemma2-9B开源多模态大语言模型的嵌入对齐解决方案

layoutlmv2-large-uncased

开源项目模型

提升多模态文档处理能力的先进预训练模型

llava-v1.6-vicuna-13b-hf

图像文本问答生成优化

多模态聊天机器人：增强图像识别和常识推理能力

Idefics3-8B-Llama3

Huggingface模型优化

提升视觉文本处理能力的多模态模型

Qwen2-VL-2B-Instruct-GPTQ-Int4

机器人人工智能视频理解

Qwen2-VL推动多模态与自动化的跨语言视觉处理进步

llava-v1.6-34b

自然语言处理计算机视觉

大规模多模态模型的开源项目介绍

InternVL2-2B-AWQ

开源项目图像文本

跨多语言多图像任务的高效视觉语言模型

MobileVLM-1.7B

多模态MobileVLM

移动设备优化的高效多模态视觉语言模型

llava-next-interleave-qwen-7b

开源项目模型

研究大规模多模态与聊天机器人的开源自回归语言模型

flava-full

模型限制开源项目

FLAVA模型的零样本图像和文本检索能力

1 2 3

探索AI的无限可能

访问

AI工具导航精选AI信息

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

多模态AI工具汇总：实用资源一览

Vidu

ultravox-v0_4

LanguageBind_Audio

VILA1.5-13b

Llama-3.1-Unhinged-Vision-8B-GGUF

Qwen2-VL-72B-Instruct-GPTQ-Int8

MiniCPM-V-2

Lumina-mGPT-7B-768

Qwen2-VL-7B-Instruct-GPTQ-Int8

InternVL2-40B

Ovis1.6-Gemma2-9B

layoutlmv2-large-uncased

llava-v1.6-vicuna-13b-hf

Idefics3-8B-Llama3

Qwen2-VL-2B-Instruct-GPTQ-Int4

llava-v1.6-34b

InternVL2-2B-AWQ

MobileVLM-1.7B

llava-next-interleave-qwen-7b

flava-full

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号