多模态AI工具汇总:实用资源一览

llava-onevision-qwen2-0.5b-ov

llava-onevision-qwen2-0.5b-ov

多模态图像处理

支持多模态输入的视觉语言AI模型

cogvlm-chat-hf

cogvlm-chat-hf

模型开源

开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B

LLaVA-NeXT-Video-7B-hf

LLaVA-NeXT-Video-7B-hf

模型人工智能

先进多模态AI模型实现视频和图像理解

MiniCPM-V-2_6-int4

MiniCPM-V-2_6-int4

模型MiniCPM-V

精简高效的多语言视觉AI对话模型

llava-v1.6-mistral-7b

llava-v1.6-mistral-7b

模型Huggingface

LLaVA-v1.6:融合图像与文本理解的开源多模态AI模型

Qwen-Audio-Chat

Qwen-Audio-Chat

模型多任务学习

多模态音频语言模型支持多种音频类型和复杂场景分析

NVLM-D-72B

NVLM-D-72B

模型人工智能

开源前沿级多模态大语言模型 实现视觉语言任务的最新突破

llava-onevision-qwen2-7b-ov-chat

llava-onevision-qwen2-7b-ov-chat

多模态图像处理

LLaVA-OneVision多模态AI模型支持图像和视频交互

llava-onevision-qwen2-0.5b-si

llava-onevision-qwen2-0.5b-si

模型Github

多模态AI模型实现图像、多图和视频的智能交互

llama3-llava-next-8b-hf

llama3-llava-next-8b-hf

模型LLaVA-NeXT

LLaVA-NeXT:Llama 3驱动的多模态AI模型

InternVL2-4B

InternVL2-4B

多模态Huggingface

先进多模态大语言模型探索视觉语言理解新高度

colpali-v1.2

colpali-v1.2

ColPali语言模型

基于PaliGemma-3B和ColBERT策略的创新视觉文档检索模型

Qwen2-VL-7B-Instruct-AWQ

Qwen2-VL-7B-Instruct-AWQ

模型图像理解

先进视觉语言模型实现多分辨率图像和长视频理解

llava-onevision-qwen2-7b-ov

llava-onevision-qwen2-7b-ov

图像识别多模态

基于Qwen2的多模态模型 支持图像和视频理解

Qwen2-VL-2B-Instruct

Qwen2-VL-2B-Instruct

模型图像理解

先进的多模态AI模型 支持高分辨率图像和长视频理解

bridgetower-large-itm-mlm-itc

bridgetower-large-itm-mlm-itc

模型开源项目

BridgeTower 优化视觉语言表示学习的创新模型

LanguageBind_Video_FT

LanguageBind_Video_FT

多模态Huggingface

基于语言的多模态预训练方法扩展到N种模态

Qwen2-VL-72B-Instruct-AWQ

Qwen2-VL-72B-Instruct-AWQ

模型开源项目

强大多模态AI实现高分辨率图像和长视频深度理解

nomic-embed-vision-v1

nomic-embed-vision-v1

图像嵌入模型

共享文本空间的先进视觉嵌入模型

llava-1.5-7b-hf

llava-1.5-7b-hf

模型图像文本生成

基于Llama 2的多模态AI模型 实现图像理解与对话