精选计算机视觉工具:AI应用、网站与开源项目大全

mask2former-swin-tiny-coco-instance

mask2former-swin-tiny-coco-instance

模型Github

Mask2Former模型:统一处理实例、语义和全景图像分割

surya_rec

surya_rec

模型surya

surya项目专用的多语言文本识别模型

mgp-str-base

mgp-str-base

计算机视觉Huggingface

多粒度预测的场景文本识别开源模型

CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup

CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup

CLIP模型

CLIP ConvNeXt-XXLarge模型在零样本图像分类上的卓越性能

xclip-base-patch32

xclip-base-patch32

模型计算机视觉

X-CLIP视频语言理解模型在Kinetics-400数据集上的应用

metaclip-b32-400m

metaclip-b32-400m

模型Github

揭秘CLIP数据处理方法的高性能视觉语言模型

siglip-large-patch16-256

siglip-large-patch16-256

模型多模态模型

SigLIP模型采用优化损失函数实现图像文本多模态任务

mobilenet_v2_1.0_224

mobilenet_v2_1.0_224

ImageNet模型

轻量级移动设备图像分类神经网络MobileNet V2

convnext-xlarge-384-22k-1k

convnext-xlarge-384-22k-1k

计算机视觉神经网络

融合现代设计的高性能图像分类卷积神经网络

fashion-images-gender-age-vit-large-patch16-224-in21k-v3

fashion-images-gender-age-vit-large-patch16-224-in21k-v3

计算机视觉图像分类

基于Vision Transformer的时尚图像性别年龄识别模型

metaclip-h14-fullcc2.5b

metaclip-h14-fullcc2.5b

零样本分类模型

大规模视觉语言模型基于25亿CommonCrawl数据训练

vit-large-patch16-224-in21k

vit-large-patch16-224-in21k

模型计算机视觉

基于ImageNet-21k预训练的大型Vision Transformer模型

upernet-convnext-small

upernet-convnext-small

模型语义分割

高效语义分割框架融合ConvNeXt技术

swin-tiny-patch4-window7-224

swin-tiny-patch4-window7-224

模型Github

层级结构的视觉Transformer模型

segformer-b3-fashion

segformer-b3-fashion

计算机视觉Huggingface

高效精准的时尚服饰语义分割模型

vivit-b-16x2-kinetics400

vivit-b-16x2-kinetics400

模型Github

ViViT 扩展Vision Transformer至视频分析领域的创新模型

DFN5B-CLIP-ViT-H-14

DFN5B-CLIP-ViT-H-14

CLIP模型

高性能图像-文本对比学习模型

stable-video-diffusion-img2vid

stable-video-diffusion-img2vid

模型图像到视频生成

AI模型将静态图像转换为动态短视频的创新技术

Depth-Anything-V2-Small

Depth-Anything-V2-Small

模型Github

先进高效的开源深度估计工具

Depth-Anything-V2-Base-hf

Depth-Anything-V2-Base-hf

图像处理计算机视觉

高效精细的单目深度估计模型 提供稳健性能