多模态AI工具汇总:实用资源一览

MedTrinity-25M

MedTrinity-25M

MedTrinity-25M医学数据集

多粒度标注医学数据集推动医疗AI进步

Video-ChatGPT

Video-ChatGPT

Video-ChatGPT视频理解

创新视频对话技术开启细致视频理解新纪元

BakLLaVA

BakLLaVA

BakLLaVA多模态

突破性多模态语言模型创新

mindone

mindone

MindONE多模态

多模态理解与内容生成的开源算法库

Appomate AI

Appomate AI

AI工具AI助手

多功能AI平台集成先进模型提升工作效率

Gemini GPT AI

Gemini GPT AI

AI工具Gemini GPT AI

多模态AI助手集成文本图像音视频处理功能

Captum

Captum

AI工具Captum

开源PyTorch模型可解释性分析工具库Captum

Free ChatGPT Omni (GPT4o)

Free ChatGPT Omni (GPT4o)

AI工具GPT4o

GPT4o多模态AI对话平台 免费体验先进人工智能

Chainlit

Chainlit

AI工具Conversational AI

快速构建和部署可靠对话式AI应用的一站式平台

GPT-4o

GPT-4o

AI工具GPT-4o

OpenAI多模态AI平台GPT-4o革新人机交互

Wordware

Wordware

AI工具Wordware

高效AI代理开发与部署的集成环境

LLaVA-Med

LLaVA-Med

LLaVA-Med多模态

生物医学视觉语言模型助力图像分析与智能问答

DriveMLM

DriveMLM

DriveMLM自动驾驶

融合大语言模型的自动驾驶行为规划框架

ComfyUI-Gemini

ComfyUI-Gemini

ComfyUIGemini

将Google Gemini AI模型引入ComfyUI的多模态对话与分析工具

PAIR-Diffusion

PAIR-Diffusion

PAIR Diffusion图像编辑

多模态对象级图像编辑的开源解决方案

large-ocr-model.github.io

large-ocr-model.github.io

OCR大型模型

OCR 技术提升多模态大模型视觉问答性能研究

AGI-survey

AGI-survey

AGI人工智能

人工通用智能研究前沿及未来发展路线图概览

ConsistentID

ConsistentID

ConsistentID人像生成

基于细粒度身份保持的先进人像生成模型

ml-mgie

ml-mgie

MGIE图像编辑

基于多模态大语言模型的智能图像编辑技术

Awesome-LLMs-for-Video-Understanding

Awesome-LLMs-for-Video-Understanding

视频理解大语言模型

视频理解领域大型语言模型应用综述