MambaVision结合Mamba和Transformer的创新视觉骨干网络
Vision Transformer:基于图像分块的高效视觉识别模型
Mask2Former大型语义分割模型 适用多种图像分割任务
小型Vision Transformer模型用于无监督视觉特征学习
OWL-ViT:基于CLIP的开放词汇目标检测模型
大规模数据筛选优化的视觉语言预训练系统
高效精准的单目深度估计AI模型
高性能AI图像分割模型 多种输入方式生成精确物体遮罩
图像到视频转换模型Stable Video Diffusion实现动画生成
基于CLOOB的日语图像文本融合模型
SegFormer-b0模型实现高效语义分割
Swin Transformer v2:分层特征图构建的高效视觉模型
基于Transformer架构的大规模图像分类模型
基于SigLIP的先进视觉语言模型实现零样本图像分类
基于Vision Transformer的单目深度估计模型
SigLIP改进CLIP模型 实现更高效的零样本图像分类和检索
SAM 革新性的通用图像分割模型
基于扩散模型的高分辨率图像生成和修复工具
多任务视觉处理的统一基础模型
基于ViT的高效零样本图像分割模型
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号