精选计算机视觉工具:AI应用、网站与开源项目大全

MambaVision-B-1K

MambaVision-B-1K

模型Github

MambaVision结合Mamba和Transformer的创新视觉骨干网络

vit-base-patch16-384

vit-base-patch16-384

ImageNet模型

Vision Transformer:基于图像分块的高效视觉识别模型

mask2former-swin-large-cityscapes-semantic

mask2former-swin-large-cityscapes-semantic

模型Github

Mask2Former大型语义分割模型 适用多种图像分割任务

dinov2-small

dinov2-small

计算机视觉DINOv2

小型Vision Transformer模型用于无监督视觉特征学习

owlvit-base-patch32

owlvit-base-patch32

模型目标检测

OWL-ViT:基于CLIP的开放词汇目标检测模型

DFN5B-CLIP-ViT-H-14-378

DFN5B-CLIP-ViT-H-14-378

CLIP模型

大规模数据筛选优化的视觉语言预训练系统

Depth-Anything-V2-Large-hf

Depth-Anything-V2-Large-hf

模型计算机视觉

高效精准的单目深度估计AI模型

sam-vit-large

sam-vit-large

Segment Anything Model模型

高性能AI图像分割模型 多种输入方式生成精确物体遮罩

stable-video-diffusion-img2vid-xt

stable-video-diffusion-img2vid-xt

模型图像到视频生成

图像到视频转换模型Stable Video Diffusion实现动画生成

japanese-cloob-vit-b-16

japanese-cloob-vit-b-16

计算机视觉Huggingface

基于CLOOB的日语图像文本融合模型

segformer-b0-finetuned-ade-512-512

segformer-b0-finetuned-ade-512-512

模型Github

SegFormer-b0模型实现高效语义分割

swinv2-tiny-patch4-window16-256

swinv2-tiny-patch4-window16-256

模型Github

Swin Transformer v2:分层特征图构建的高效视觉模型

vit-large-patch32-384

vit-large-patch32-384

模型Github

基于Transformer架构的大规模图像分类模型

ViT-L-16-SigLIP-384

ViT-L-16-SigLIP-384

SigLIP计算机视觉

基于SigLIP的先进视觉语言模型实现零样本图像分类

dpt-hybrid-midas

dpt-hybrid-midas

计算机视觉深度估计

基于Vision Transformer的单目深度估计模型

siglip-base-patch16-224

siglip-base-patch16-224

模型计算机视觉

SigLIP改进CLIP模型 实现更高效的零样本图像分类和检索

sam-vit-huge

sam-vit-huge

模型Github

SAM 革新性的通用图像分割模型

stable-diffusion-2-inpainting

stable-diffusion-2-inpainting

模型计算机视觉

基于扩散模型的高分辨率图像生成和修复工具

Florence-2-base

Florence-2-base

图像处理计算机视觉

多任务视觉处理的统一基础模型

sam-vit-base

sam-vit-base

模型Github

基于ViT的高效零样本图像分割模型