图像识别AI工具大全:实用软件、网站推荐

图像识别

Llama-3.2-11B-Vision-Instruct-nf4

Llama-3.2-11B-Vision-Instruct-nf4

神经网络量化图像识别

量化视觉语言模型实现高效图像分析与理解

Florence-2-base-ft

Florence-2-base-ft

Transformers.js模型

基于Transformers.js的图像识别文本生成引擎

align-base

align-base

计算机视觉Github

视觉语言对齐模型实现高效零样本图像分类

nsfw-image-detection-large

nsfw-image-detection-large

FocalNet人工智能

FocalNet驱动的NSFW图像分类器实现高准确率内容审核

pixtral-12b

pixtral-12b

图像识别机器学习

支持多图片交互分析的开源视觉语言模型

llava-1.6-mistral-7b-gguf

llava-1.6-mistral-7b-gguf

MistralLLaVA

基于Mistral-7B的LLaVA多模态模型GGUF量化版

XLM-Roberta-Large-Vit-B-16Plus

XLM-Roberta-Large-Vit-B-16Plus

多语言CLIP图像识别

支持50多种语言的多模态视觉语言模型

layoutlm-document-qa

layoutlm-document-qa

模型Github

LayoutLM文档智能问答模型

cogvlm-chat-hf

cogvlm-chat-hf

模型开源

开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B

Florence-2-large-ft

Florence-2-large-ft

图像识别计算机视觉

统一表示实现多种视觉任务的AI基础模型

llava-onevision-qwen2-72b-ov-sft

llava-onevision-qwen2-72b-ov-sft

多模态模型图像识别

基于Qwen2的多模态AI模型 支持图像和视频交互

Qwen2-VL-72B-Instruct

Qwen2-VL-72B-Instruct

模型多模态处理

多模态视觉语言模型实现图像视频理解与交互

MiniCPM-V-2_6-int4

MiniCPM-V-2_6-int4

模型MiniCPM-V

精简高效的多语言视觉AI对话模型

vit-large-patch16-224-in21k

vit-large-patch16-224-in21k

模型计算机视觉

基于ImageNet-21k预训练的大型Vision Transformer模型

HuatuoGPT-Vision-7B

HuatuoGPT-Vision-7B

模型Github

融合视觉知识的医疗多模态语言模型助力诊断

yolos-small

yolos-small

模型目标检测

基于Vision Transformer的高效物体检测模型

Llama-3.2-90B-Vision-Instruct

Llama-3.2-90B-Vision-Instruct

模型多模态大语言模型

Meta开发的多模态大语言模型实现图像理解与视觉推理

food-category-classification-v2.0

food-category-classification-v2.0

模型开源项目

12类食品图像分类模型 准确率达96%

llava-onevision-qwen2-7b-ov

llava-onevision-qwen2-7b-ov

图像识别多模态

基于Qwen2的多模态模型 支持图像和视频理解

GOT-OCR2_0

GOT-OCR2_0

OCR视觉语言模型

GOT-OCR2_0为OCR技术开创统一端到端模型新纪元