精选计算机视觉工具:AI应用、网站与开源项目大全

ddcolor_paper_tiny

ddcolor_paper_tiny

图片着色计算机视觉

双解码器驱动的照片级图像上色预训练模型

fuyu-8b

fuyu-8b

Github模型

无需图像编码器的轻量级多模态开源模型

swin2SR-realworld-sr-x4-64-bsrgan-psnr

swin2SR-realworld-sr-x4-64-bsrgan-psnr

Swin2SR图像处理

基于SwinV2的实景图像4倍超分辨率模型

MambaVision-T-1K

MambaVision-T-1K

特征提取开源项目

提高视觉模型长距离空间依赖的处理能力

mask2former-swin-large-mapillary-vistas-semantic

mask2former-swin-large-mapillary-vistas-semantic

深度学习Huggingface

Mask2Former模型整合多尺度变形和掩码注意力实现高效图像分割

swinv2-tiny-patch4-window8-256

swinv2-tiny-patch4-window8-256

深度学习图像分类

基于分层特征图的轻量级视觉Transformer模型

dpt-beit-large-512

dpt-beit-large-512

BEiTGithub

BEiT架构驱动的高性能单目深度估计模型

DUSt3R_ViTLarge_BaseDecoder_512_dpt

DUSt3R_ViTLarge_BaseDecoder_512_dpt

计算机视觉Github

ViT架构的多分辨率3D几何视觉模型用于深度估计

xcit_small_12_p16_224.fb_in1k

xcit_small_12_p16_224.fb_in1k

ImageNet计算机视觉

跨协方差图像Transformer的高效视觉分类与特征提取模型

stable-diffusion-1.5

stable-diffusion-1.5

深度学习文本生成图像

开源深度学习模型实现文本到图像的精确转换与生成

xcit_nano_12_p8_224.fb_in1k

xcit_nano_12_p8_224.fb_in1k

ImageNetGithub

基于跨协方差转换器的轻量级图像分类模型

densenet201.tv_in1k

densenet201.tv_in1k

ImageNetDenseNet

DenseNet图像分类模型实现高效特征提取与精准分类

depth_anything_vits14

depth_anything_vits14

图像处理计算机视觉

大规模无标签数据训练的开源深度估计工具

Depth-Anything-V2-Base

Depth-Anything-V2-Base

图像处理计算机视觉

更快更精细的单目深度估计模型

depth_anything_vitl14

depth_anything_vitl14

图像处理计算机视觉

先进的计算机视觉深度估计开源框架

siglip-base-patch16-384

siglip-base-patch16-384

计算机视觉开源项目

改进型CLIP架构的图像文本预训练模型

control_v11p_sd15_canny

control_v11p_sd15_canny

ControlNetGithub

边缘检测控制模型实现精准AI图像生成

vit-large-patch16-224

vit-large-patch16-224

Github图像分类

大型视觉Transformer模型在ImageNet数据集上的图像分类实现

align-base

align-base

计算机视觉Github

视觉语言对齐模型实现高效零样本图像分类

zoedepth-nyu-kitti

zoedepth-nyu-kitti

ZoeDepth图像处理

基于DPT框架的深度估计神经网络