精选计算机视觉工具：AI应用、网站与开源项目大全

相关项目相关文章

resnet-152-text-detector

resnet-152-text-detector

文本检测计算机视觉

基于ResNet-152的高效图像文本检测深度学习模型

MambaVision-S-1K

MambaVision-S-1K

MambaVision融合Mamba与Transformer的计算机视觉新型架构

vitmatte-small-composition-1k

vitmatte-small-composition-1k

模型图像抠图

Vision Transformer驱动的先进图像抠图模型

depth-anything-large-hf

depth-anything-large-hf

模型计算机视觉

基于DPT和DINOv2的大规模深度估计模型

pix2struct-tiny-random

pix2struct-tiny-random

计算机视觉Huggingface

高效图像到文本转换的轻量级模型

marigold-normals-v0-1

marigold-normals-v0-1

模型扩散模型

单目图像的表面法线估计开源项目

Llama-3.2-11B-Vision

Llama-3.2-11B-Vision

Meta开发的多模态大语言模型支持视觉识别和图像推理

mask2former-swin-base-coco-panoptic

mask2former-swin-base-coco-panoptic

语义分割计算机视觉

多任务图像分割的先进模型

DepthCrafter

DepthCrafter

视频处理模型

生成开放世界视频的长序列一致深度估计

vitmatte-base-composition-1k

vitmatte-base-composition-1k

计算机视觉Huggingface

Vision Transformer驱动的图像抠图模型

unidepth-v2-vitl14

unidepth-v2-vitl14

单目度量深度估计模型支持多样化场景

sam2-hiera-large

sam2-hiera-large

模型视频分割

SAM2模型实现图像和视频智能分割

detr-resnet-101

detr-resnet-101

Transformer计算机视觉

DETR目标检测模型：结合ResNet-101与Transformer架构

llava-onevision-qwen2-0.5b-ov-hf

llava-onevision-qwen2-0.5b-ov-hf

模型多模态语言模型

推动单图、多图和视频理解的多模态大语言模型

InternVL2-2B

InternVL2-2B

模型多模态大语言模型

多模态大语言模型支持多语言及多媒体理解

dpt-large

dpt-large

基于视觉变换器的高精度单目深度估计模型

vit_base_patch16_clip_224.openai

vit_base_patch16_clip_224.openai

CLIP：跨模态视觉语言理解模型

edsr-base

edsr-base

轻量级单图像超分辨率深度残差网络

InternVL2-1B

InternVL2-1B

多模态大语言模型实现多图像和视频智能理解

mobilenet_v1_0.75_192

mobilenet_v1_0.75_192

模型图像分类

移动设备优化的轻量级卷积神经网络

探索AI的无限可能

访问

AI工具导航精选AI信息

推荐工具精选

TRAE编程

TRAE编程

AI辅助编程，代码自动修复

扣子-AI办公

扣子-AI办公

职场AI，就用扣子

码上飞

码上飞

零代码AI应用开发平台

商汤小浣熊

商汤小浣熊

最强AI数据分析助手

讯飞绘文

讯飞绘文

选题、配图、成文，一站式创作，让内容运营更高效

讯飞绘镜

讯飞绘镜

描述即创作，短视频轻松生成

iTerms

iTerms

企业专属的AI法律顾问

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信公众号二维码

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号