
Mask2Former模型:统一处理实例、语义和全景图像分割

surya项目专用的多语言文本识别模型

多粒度预测的场景文本识别开源模型

CLIP ConvNeXt-XXLarge模型在零样本图像分类上的卓越性能

X-CLIP视频语言理解模型在Kinetics-400数据集上的应用

揭秘CLIP数据处理方法的高性能视觉语言模型

SigLIP模型采用优化损失函数实现图像文本多模态任务

轻量级移动设备图像分类神经网络MobileNet V2

融合现代设计的高性能图像分类卷积神经网络

基于Vision Transformer的时尚图像性别年龄识别模型

大规模视觉语言模型基于25亿CommonCrawl数据训练

基于ImageNet-21k预训练的大型Vision Transformer模型

高效语义分割框架融合ConvNeXt技术

层级结构的视觉Transformer模型

高效精准的时尚服饰语义分割模型

ViViT 扩展Vision Transformer至视频分析领域的创新模型

高性能图像-文本对比学习模型

AI模型将静态图像转换为动态短视频的创新技术

先进高效的开源深度估计工具

高效精细的单目深度估计模型 提供稳健性能
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号