图像识别
量化视觉语言模型实现高效图像分析与理解
基于Transformers.js的图像识别文本生成引擎
视觉语言对齐模型实现高效零样本图像分类
FocalNet驱动的NSFW图像分类器实现高准确率内容审核
支持多图片交互分析的开源视觉语言模型
基于Mistral-7B的LLaVA多模态模型GGUF 量化版
支持50多种语言的多模态视觉语言模型
LayoutLM文档智能问答模型
开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B
统一表示实现多种视觉任务的AI基础模型
基于Qwen2的多模态AI模型 支持图像和视频交互
多模态视觉语言模型实现图像视频理解与交互
精简高效的多语言视觉AI对话模型
基于ImageNet-21k预训练的大型Vision Transformer模型
融合视觉知识的医疗多模态语言模型助力诊断
基于Vision Transformer的高效物体检测模型
Meta开发的多模态大语言模型实现图像理解与视觉推理
12类食品图像分类模型 准确率达96%
基于Qwen2的多模态模型 支持图像和视频理解
GOT-OCR2_0为OCR技术开创统一端到端模型新纪元
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号