多语言视觉语言模型 适用于多种图像相关任务
轻量级视觉语言模型支持多种图像文本任务
多模态视觉语言模型实现图像视频理解与交互
基于SigLIP和Gemma的多语言视觉语言模型
多模态视觉语言模型VILA支持边缘设备和多图像处理
多模态AI模型实现图像、多图和视频的智能交互
ColQwen2:结合ColBERT策略的先进视觉语言检索模型
小型高效的边缘设备视觉语言模型
Salesforce开发的大规模多模态模型 支持高分辨率图像处理
InstructBLIP:指令微调的通用视觉语言模型
视觉语言模型PaliGemma实现多语言图像理解与文本生成
先进视觉语言模型实现多分辨率图像和长视频理解
GOT-OCR2_0为OCR技术开创统一端到端模型新纪元
融合视觉与语言的多模态AI模型
先进的多模态AI模型 支持高分辨率图像和长视频理解
BridgeTower 优化视觉语言表示学习的创新模型
多分辨率图像和长视频理解的视觉语言模型
深度理解界面和信息图的视觉语言模型
结合RWKV的创新视觉语言模型
探索视觉语言模型的幻觉与错觉问题
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号