视觉语言模型工具集合:应用、网站与开源项目一览

awesome-multimodal-in-medical-imaging

awesome-multimodal-in-medical-imaging

医学影像多模态学习

医学影像多模态学习应用资源集锦

Multimodal-AND-Large-Language-Models

Multimodal-AND-Large-Language-Models

多模态大语言模型

多模态与大语言模型前沿研究综述

ViP-LLaVA

ViP-LLaVA

ViP-LLaVA视觉语言模型

改进大型多模态模型的视觉提示理解能力

x-clip

x-clip

CLIP对比学习

灵活实现的CLIP视觉语言预训练模型

AnomalyGPT

AnomalyGPT

AnomalyGPT工业异常检测

突破性工业异常检测方法

moondream

moondream

moondream视觉语言模型

小巧高效的视觉语言模型 兼容多平台运行

tokenize-anything

tokenize-anything

TAPAI分割识别

基于视觉提示的多功能区域分割识别和描述模型

EVE

EVE

EVE视觉语言模型

无编码器视觉语言模型实现高效性能

cobra

cobra

Cobra多模态大语言模型

高效推理的多模态大语言模型扩展

MMStar

MMStar

MMStar多模态评估

大型视觉语言模型评估的新标准

GeoChat

GeoChat

GeoChat遥感

专为遥感领域打造的视觉语言模型

ALLaVA

ALLaVA

ALLaVAGPT-4V

GPT4V合成数据集助力轻量级视觉语言模型训练

Image In Words

Image In Words

AI工具Image In Words

先进AI技术生成超详细图像文本描述

Bunny

Bunny

Bunny多模态模型

轻量高效多模态模型支持高分辨率图像分析

MMBench

MMBench

MMBench多模态模型

全面评估多模态大模型能力的基准测试

plip

plip

PLIP病理学

病理学视觉语言基础模型 革新AI分析

SAN

SAN

开放词汇语义分割Side Adapter Network

轻量高效的开放词汇语义分割框架

ViTamin

ViTamin

ViTamin视觉语言模型

推动计算机视觉进入新时代的可扩展视觉语言模型

llm-awq

llm-awq

AWQLLM

激活感知权重量化技术实现大语言模型高效压缩与加速

CogCoM

CogCoM

CogCoM视觉语言模型

链式操作助力视觉语言模型精细化理解