精选计算机视觉工具:AI应用、网站与开源项目大全

resnet-152-text-detector

resnet-152-text-detector

文本检测计算机视觉

基于ResNet-152的高效图像文本检测深度学习模型

MambaVision-S-1K

MambaVision-S-1K

模型Github

MambaVision融合Mamba与Transformer的计算机视觉新型架构

vitmatte-small-composition-1k

vitmatte-small-composition-1k

模型图像抠图

Vision Transformer驱动的先进图像抠图模型

depth-anything-large-hf

depth-anything-large-hf

模型计算机视觉

基于DPT和DINOv2的大规模深度估计模型

pix2struct-tiny-random

pix2struct-tiny-random

计算机视觉Huggingface

高效图像到文本转换的轻量级模型

marigold-normals-v0-1

marigold-normals-v0-1

模型扩散模型

单目图像的表面法线估计开源项目

Llama-3.2-11B-Vision

Llama-3.2-11B-Vision

模型Github

Meta开发的多模态大语言模型 支持视觉识别和图像推理

mask2former-swin-base-coco-panoptic

mask2former-swin-base-coco-panoptic

语义分割计算机视觉

多任务图像分割的先进模型

DepthCrafter

DepthCrafter

视频处理模型

生成开放世界视频的长序列一致深度估计

vitmatte-base-composition-1k

vitmatte-base-composition-1k

计算机视觉Huggingface

Vision Transformer驱动的图像抠图模型

unidepth-v2-vitl14

unidepth-v2-vitl14

模型PyTorch

单目度量深度估计模型 支持多样化场景

sam2-hiera-large

sam2-hiera-large

模型视频分割

SAM2模型实现图像和视频智能分割

detr-resnet-101

detr-resnet-101

Transformer计算机视觉

DETR目标检测模型:结合ResNet-101与Transformer架构

llava-onevision-qwen2-0.5b-ov-hf

llava-onevision-qwen2-0.5b-ov-hf

模型多模态语言模型

推动单图、多图和视频理解的多模态大语言模型

InternVL2-2B

InternVL2-2B

模型多模态大语言模型

多模态大语言模型支持多语言及多媒体理解

dpt-large

dpt-large

模型Github

基于视觉变换器的高精度单目深度估计模型

vit_base_patch16_clip_224.openai

vit_base_patch16_clip_224.openai

CLIP模型

CLIP:跨模态视觉语言理解模型

edsr-base

edsr-base

模型DIV2K

轻量级单图像超分辨率深度残差网络

InternVL2-1B

InternVL2-1B

模型Github

多模态大语言模型实现多图像和视频智能理解

mobilenet_v1_0.75_192

mobilenet_v1_0.75_192

模型图像分类

移动设备优化的轻量级卷积神经网络