Mask2Former模型:统一处理实例、语义和全景图像分割
surya项目专用的多语言文本识别模型
多粒度预测的场景文本识别开源模型
CLIP ConvNeXt-XXLarge模型在零样本图像分类上的卓越性能
X-CLIP视频语言理解模型在Kinetics-400数据集上的应用
揭秘CLIP数据处理方法的高性能视觉语言模型
SigLIP模型采用优化损失函数实现图像文本多模态任务
轻量级移动设备图像分类神经网络MobileNet V2
融合现代设计的高性能图像分类卷积神经网络
基于Vision Transformer的时尚图像性别年龄识别模型
大规模视觉语言模型基于25亿CommonCrawl数据训练
基于ImageNet-21k预训练的大型Vision Transformer模型
高效语义分割框架融合ConvNeXt技术
层级结构的视觉Transformer模型
高效精准的时尚服饰语义分割模型
ViViT 扩展Vision Transformer至视频分析领域的创新模型
高性能图像-文本对比学习模型
AI模型将静态图像转换为动态短视频的创新技术
先进高效的开源深度估计工具
高效精细的单目深度估计模型 提供稳健性能
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号