多模态AI工具汇总:实用资源一览

LanguageBind_Image

LanguageBind_Image

模型ICLR

基于语言实现多模态预训练绑定

Qwen2-VL-7B-Instruct

Qwen2-VL-7B-Instruct

多模态视觉语言模型

多分辨率图像和长视频理解的视觉语言模型

blip-image-captioning-base

blip-image-captioning-base

模型图像理解

BLIP框架打造的先进图像描述生成模型

ScreenAI

ScreenAI

ScreenAI视觉语言模型

深度理解界面和信息图的视觉语言模型

visual-med-alpaca

visual-med-alpaca

Visual Med-AlpacaLLM

生物医学多模态AI模型实现图像理解和复杂问答

AGI-Papers

AGI-Papers

AGI大语言模型

人工智能前沿研究聚焦大语言模型和多模态系统

everything-ai

everything-ai

everything-aiAI助手

多功能AI聊天机器人助手支持本地部署

99AI

99AI

99AIAI应用

集成多模态AI服务的开源Web应用,支持对话、绘画、音乐和视频创作

LLaVA-HR

LLaVA-HR

LLaVA-HR大语言模型

混合分辨率适应技术助力多模态大模型

FrozenBiLM

FrozenBiLM

VideoQAFrozenBiLM

创新视频问答模型在零样本和少样本场景中表现优异

Multimodal-AND-Large-Language-Models

Multimodal-AND-Large-Language-Models

多模态大语言模型

多模态与大语言模型前沿研究综述

Chat-UniVi

Chat-UniVi

Chat-UniVi视觉理解

统一视觉表示赋能大语言模型理解图像和视频

PointLLM

PointLLM

PointLLM3D点云

多模态大语言模型理解点云数据的突破性进展

cornac

cornac

Cornac推荐系统

多模态推荐系统比较框架

Prompt-Can-Anything

Prompt-Can-Anything

Prompt-Can-AnythingAI应用

AI应用集成平台 轻松实现多模态任务处理

Automated-Fact-Checking-Resources

Automated-Fact-Checking-Resources

自动事实核查数据集

自动事实核查资源库 数据集、模型与研究进展

x-clip

x-clip

CLIP对比学习

灵活实现的CLIP视觉语言预训练模型

EmbedAnything

EmbedAnything

EmbedAnything嵌入式框架

Rust开发的多源数据嵌入生成框架

Motion-X

Motion-X

Motion-X人体动作数据集

丰富表现力的3D全身人体动作数据集

SAT

SAT

SAT医学图像分割

突破性医学图像分割模型,支持多模态多区域文本提示