基于ResNet-152的高效图像文本检测深度学习模型
MambaVision融合Mamba与Transformer的计算机视觉新型架构
Vision Transformer驱动的先进图像抠图模型
基于DPT和DINOv2的大规模深度估计模型
高效图像到文本转换的轻量级模型
单目图像的表面法线估计开源项目
Meta开发的多模态大语言模型 支持视觉识别和图像推理
多任务图像分割的先进模型
生成开放世界视频的长序列一致深度估计
Vision Transformer驱动的图像抠图模型
单目度量深度估计模型 支持多样化场景
SAM2模型实现图像和视频智能分割
DETR目标检测模型:结合ResNet-101与Transformer架构
推动单图、多图和视频理解的多模态大语言模型
多模态大语言模型支持多语言及多媒体理解
基于视觉变换器的高精度单目深度估计模型
CLIP:跨模态视觉语言理解模型
轻量级单图像超分辨率深度残差网络
多模态大语言模型实现多图像和视频智能理解
移动设备优化的轻量级卷积神经网络
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号