多模态AI工具汇总：实用资源一览

MM-Interleaved

MM-Interleaved生成模型

创新交错图文生成模型

LLaMA-VID

LLaMA-VID大语言模型

支持长视频处理的多模态大语言模型

VideoLLaMA2

VideoLLaMA2视频理解

增强视频理解的多模态语言模型

Lumina-mGPT

Lumina-mGPT多模态

多模态AI模型实现文本到图像的灵活生成

LLaMA2-Accessory

LLaMA2-Accessory大语言模型

全方位开源工具助力大规模语言与多模态模型研发

Video-LLaVA

Video-LLaVA视觉语言模型

统一视觉表示学习的新方法增强跨模态交互能力

SEED

SEED-LLaMA多模态

融合视觉与语言的多模态AI框架

Otter

OtterMIMIC-IT

基于MIMIC-IT数据集和OpenFlamingo的多模态模型

OFA

OFA预训练模型

多任务优化的跨模态序列到序列预训练模型

EmbodiedScan

EmbodiedScanMMScan

全面多模态3D感知套件，提高具身AI的理解能力

fromage

FROMAGe模型

支持多模态输入输出的语言模型

Gemini

Gemini多模态

Gemini多模态变换器，支持图像和音频解析

LLaVA-Plus-Codebase

LLaVA-PlusLLaVA

多模态智能助手的工具使用与学习指南

Transformer-in-Vision

Transformer-in-VisionAI模型

深入探索Transformer在计算机视觉领域的最新研究与资源

OpenAI-CLIP

CLIP多模态

从零开始实现CLIP模型：探索文本与图像的多模态关联

wit

WIT数据集

全球最大多语言多模态数据集，助力机器学习模型优化

generate

GeneratePython包

多平台生成模型访问的统一Python工具

AI-Catalog

AI-CatalogAI工具

AI工具和平台集合，涵盖图像生成、文本总结、代码辅助等功能

TencentPretrain

TencentPretrain预训练

多模态预训练和微调框架，支持文本、视觉与音频数据

BLIVA

BLIVA多模态

处理文本视觉问题的多模态LLM

5 6 7 8

探索AI的无限可能

访问

AI工具导航精选AI信息

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com