多模态AI工具汇总：实用资源一览

CVinW_Readings

计算机视觉迁移学习

聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域

SONAR

SONAR多语言

先进的多语言多模态句子表示模型

LLaMA-Adapter

LLaMA-Adapter微调

轻量级适配方法高效微调大语言模型

MiniGPT4-video

GoldfishMiniGPT4-Video

提升视频理解的创新多模态语言模型

Awesome-Foundation-Models

基础模型多模态

视觉语言基础模型精选资源库

guidance

Guidance语言模型

灵活高效的语言模型编程框架

Video-LLaMA

Video-LLaMA多模态

指令微调的音视频语言模型实现多模态视频理解

MiniCPM

MiniCPM端侧大语言模型

轻量级大语言模型实现高性能端侧部署

LanguageBind

LanguageBind多模态

通过语言绑定实现跨模态语义对齐

LabelLLM

LabelLLM数据标注平台

开源数据标注平台优化LLM开发流程

Awesome-Remote-Sensing-Multimodal-Large-Language-Model

大语言模型遥感

远程遥感多模态大语言模型资源全面汇总

Awesome-Remote-Sensing-Foundation-Models

遥感基础模型计算机视觉

遥感基础模型论文代码数据集综合资源库

CogCoM

CogCoM视觉语言模型

链式操作助力视觉语言模型精细化理解

ustore

UStore数据库

模块化多模态事务数据库，AI和语义搜索的高性能解决方案

CLoT

CLoT大语言模型

探索大语言模型的跳跃思维能力

Segment-Everything-Everywhere-All-At-Once

SEEM分割

基于多模态提示的图像分割模型

GLM-4

GLM-4大语言模型

多语言支持与长文本处理能力

Youku-mPLUG

Youku-mPLUG视频语言数据集

千万级中文视频语言数据集及多模态基准

recognize-anything

RAM++图像识别

通用图像识别模型：支持开放域类别和高精度标签生成

VILA

VILA视觉语言模型

创新的视觉语言模型预训练方法

4 5 6 7 8

探索AI的无限可能

访问

AI工具导航精选AI信息

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com