多模态AI工具汇总:实用资源一览

MM-Interleaved

MM-Interleaved

MM-Interleaved生成模型

创新交错图文生成模型

LLaMA-VID

LLaMA-VID

LLaMA-VID大语言模型

支持长视频处理的多模态大语言模型

VideoLLaMA2

VideoLLaMA2

VideoLLaMA2视频理解

增强视频理解的多模态语言模型

Lumina-mGPT

Lumina-mGPT

Lumina-mGPT多模态

多模态AI模型实现文本到图像的灵活生成

LLaMA2-Accessory

LLaMA2-Accessory

LLaMA2-Accessory大语言模型

全方位开源工具助力大规模语言与多模态模型研发

Video-LLaVA

Video-LLaVA

Video-LLaVA视觉语言模型

统一视觉表示学习的新方法 增强跨模态交互能力

SEED

SEED

SEED-LLaMA多模态

融合视觉与语言的多模态AI框架

Otter

Otter

OtterMIMIC-IT

基于MIMIC-IT数据集和OpenFlamingo的多模态模型

OFA

OFA

OFA预训练模型

多任务优化的跨模态序列到序列预训练模型

EmbodiedScan

EmbodiedScan

EmbodiedScanMMScan

全面多模态3D感知套件,提高具身AI的理解能力

fromage

fromage

FROMAGe模型

支持多模态输入输出的语言模型

Gemini

Gemini

Gemini多模态

Gemini多模态变换器,支持图像和音频解析

LLaVA-Plus-Codebase

LLaVA-Plus-Codebase

LLaVA-PlusLLaVA

多模态智能助手的工具使用与学习指南

Transformer-in-Vision

Transformer-in-Vision

Transformer-in-VisionAI模型

深入探索Transformer在计算机视觉领域的最新研究与资源

OpenAI-CLIP

OpenAI-CLIP

CLIP多模态

从零开始实现CLIP模型:探索文本与图像的多模态关联

wit

wit

WIT数据集

全球最大多语言多模态数据集,助力机器学习模型优化

generate

generate

GeneratePython包

多平台生成模型访问的统一Python工具

AI-Catalog

AI-Catalog

AI-CatalogAI工具

AI工具和平台集合,涵盖图像生成、文本总结、代码辅助等功能

TencentPretrain

TencentPretrain

TencentPretrain预训练

多模态预训练和微调框架,支持文本、视觉与音频数据

BLIVA

BLIVA

BLIVA多模态

处理文本视觉问题的多模态LLM