多模态AI工具汇总:实用资源一览

CVinW_Readings

CVinW_Readings

计算机视觉迁移学习

聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域

SONAR

SONAR

SONAR多语言

先进的多语言多模态句子表示模型

LLaMA-Adapter

LLaMA-Adapter

LLaMA-Adapter微调

轻量级适配方法高效微调大语言模型

MiniGPT4-video

MiniGPT4-video

GoldfishMiniGPT4-Video

提升视频理解的创新多模态语言模型

Awesome-Foundation-Models

Awesome-Foundation-Models

基础模型多模态

视觉语言基础模型精选资源库

guidance

guidance

Guidance语言模型

灵活高效的语言模型编程框架

Video-LLaMA

Video-LLaMA

Video-LLaMA多模态

指令微调的音视频语言模型实现多模态视频理解

MiniCPM

MiniCPM

MiniCPM端侧大语言模型

轻量级大语言模型实现高性能端侧部署

LanguageBind

LanguageBind

LanguageBind多模态

通过语言绑定实现跨模态语义对齐

LabelLLM

LabelLLM

LabelLLM数据标注平台

开源数据标注平台 优化LLM开发流程

Awesome-Remote-Sensing-Multimodal-Large-Language-Model

Awesome-Remote-Sensing-Multimodal-Large-Language-Model

大语言模型遥感

远程遥感多模态大语言模型资源全面汇总

Awesome-Remote-Sensing-Foundation-Models

Awesome-Remote-Sensing-Foundation-Models

遥感基础模型计算机视觉

遥感基础模型论文代码数据集综合资源库

CogCoM

CogCoM

CogCoM视觉语言模型

链式操作助力视觉语言模型精细化理解

ustore

ustore

UStore数据库

模块化多模态事务数据库,AI和语义搜索的高性能解决方案

CLoT

CLoT

CLoT大语言模型

探索大语言模型的跳跃思维能力

Segment-Everything-Everywhere-All-At-Once

Segment-Everything-Everywhere-All-At-Once

SEEM分割

基于多模态提示的图像分割模型

GLM-4

GLM-4

GLM-4大语言模型

多语言支持与长文本处理能力

Youku-mPLUG

Youku-mPLUG

Youku-mPLUG视频语言数据集

千万级中文视频语言数据集及多模态基准

recognize-anything

recognize-anything

RAM++图像识别

通用图像识别模型:支持开放域类别和高精度标签生成

VILA

VILA

VILA视觉语言模型

创新的视觉语言模型预训练方法