图像识别

量化视觉语言模型实现高效图像分析与理解

基于Transformers.js的图像识别文本生成引擎

视觉语言对齐模型实现高效零样本图像分类

FocalNet驱动的NSFW图像分类器实现高准确率内容审核

支持多图片交互分析的开源视觉语言模型

基于Mistral-7B的LLaVA多模态模型GGUF 量化版

支持50多种语言的多模态视觉语言模型

LayoutLM文档智能问答模型

开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B

统一表示实现多种视觉任务的AI基础模型

基于Qwen2的多模态AI模型 支持图像和视频交互

多模态视觉语言模型实现图像视频理解与交互

精简高效的多语言视觉AI对话模型

基于ImageNet-21k预训练的大型Vision Transformer模型

融合视觉知识的医疗多模态语言模型助力诊断

基于Vision Transformer的高效物体检测模型

Meta开发的多模态大语言模型实现图像理解与视觉推理

12类食品图像分类模型 准确率达96%

基于Qwen2的多模态模型 支持图像和视频理解

GOT-OCR2_0为OCR技术开创统一端到端模型新纪元