
基于ResNet-152的高效图像文本检测深度学习模型

MambaVision融合Mamba与Transformer的计算机视觉新型架构

Vision Transformer驱动的先进图像抠图模型

基于DPT和DINOv2的大规模深度估计模型

高效图像到文本转换的轻量级模型

单目图像的表面法线估计开源项目

Meta开发的多模态大语言模型 支持视觉识别和图像推理

多任务图像分割的先进模型

生成开放世界视频的长序列一致深度估计

Vision Transformer驱动的图像抠图模型

单目度量深度估计模型 支持多样化场景

SAM2模型实现图像和视频智能分割

DETR目标检测模型:结合ResNet-101与Transformer架构

推动单图、多图和视频理解的多模态大语言模型

多模态大语言模型支持多语言及多媒体理解

基于视觉变换器的高精度单目深度估计模型

CLIP:跨模态视觉语言理解模型

轻量级单图像超分辨率深度残差网络

多模态大语言模型实现多图像和视频智能理解

移动设备优化的轻量级卷积神经网络
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号