视觉语言模型工具集合:应用、网站与开源项目一览

paligemma-3b-pt-448

paligemma-3b-pt-448

模型图像文本生成

多语言视觉语言模型 适用于多种图像相关任务

paligemma-3b-pt-896

paligemma-3b-pt-896

模型图像文本生成

轻量级视觉语言模型支持多种图像文本任务

Qwen2-VL-72B-Instruct

Qwen2-VL-72B-Instruct

模型多模态处理

多模态视觉语言模型实现图像视频理解与交互

paligemma-3b-mix-448

paligemma-3b-mix-448

视觉语言模型图像处理

基于SigLIP和Gemma的多语言视觉语言模型

VILA1.5-3b-s2

VILA1.5-3b-s2

VILA模型

多模态视觉语言模型VILA支持边缘设备和多图像处理

llava-onevision-qwen2-0.5b-si

llava-onevision-qwen2-0.5b-si

模型Github

多模态AI模型实现图像、多图和视频的智能交互

colqwen2-v0.1

colqwen2-v0.1

模型多向量表示

ColQwen2:结合ColBERT策略的先进视觉语言检索模型

moondream2

moondream2

图像问答模型

小型高效的边缘设备视觉语言模型

xgen-mm-phi3-mini-instruct-r-v1

xgen-mm-phi3-mini-instruct-r-v1

XGen-MM视觉语言模型

Salesforce开发的大规模多模态模型 支持高分辨率图像处理

instructblip-vicuna-7b

instructblip-vicuna-7b

模型指令调优

InstructBLIP:指令微调的通用视觉语言模型

paligemma-3b-mix-224

paligemma-3b-mix-224

视觉语言模型Huggingface

视觉语言模型PaliGemma实现多语言图像理解与文本生成

Qwen2-VL-7B-Instruct-AWQ

Qwen2-VL-7B-Instruct-AWQ

模型图像理解

先进视觉语言模型实现多分辨率图像和长视频理解

GOT-OCR2_0

GOT-OCR2_0

OCR视觉语言模型

GOT-OCR2_0为OCR技术开创统一端到端模型新纪元

InternVL2-Llama3-76B

InternVL2-Llama3-76B

模型Llama3

融合视觉与语言的多模态AI模型

Qwen2-VL-2B-Instruct

Qwen2-VL-2B-Instruct

模型图像理解

先进的多模态AI模型 支持高分辨率图像和长视频理解

bridgetower-large-itm-mlm-itc

bridgetower-large-itm-mlm-itc

模型开源项目

BridgeTower 优化视觉语言表示学习的创新模型

Qwen2-VL-7B-Instruct

Qwen2-VL-7B-Instruct

多模态视觉语言模型

多分辨率图像和长视频理解的视觉语言模型

ScreenAI

ScreenAI

ScreenAI视觉语言模型

深度理解界面和信息图的视觉语言模型

VisualRWKV

VisualRWKV

VisualRWKV视觉语言模型

结合RWKV的创新视觉语言模型

HallusionBench

HallusionBench

HallusionBench视觉语言模型

探索视觉语言模型的幻觉与错觉问题