全新多模态智能体实现长文本多图像及视频的智能理解
VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率
DeiT架构图像分类模型 基于ImageNet-1k训练的高效Transformer
实时目标检测革新者RT-DETR超越传统性能表现
Google OWLv2模型实现零样本开放词汇目标检测
Mask2Former:集实例、语义和全景分割于一体的图像分割模型
MAE预训练Vision Transformer模型的图像处理能力
基于OpenDalleV1.1的高级AI图像生成模型
基于CLIP架构的大规模数据集训练图像识别模型
高效压缩分割模型实现接近原始SAM性能
单目深度估计新突破:高精度细节与高效性能的完美平衡
基于BEiT主干的DPT模型实现单目深度估计
Mask2Former:统一架构实现多类型图像分割
统一表示实现多种视觉任务的AI基础模型
Donut模型:革新文档理解的图像到文本AI技术
基于GranD数据集的区域级理解和分割预 训练模型
EVF-SAM优化文本引导的Segment Anything Model性能
改进CLIP的多模态预训练模型SigLIP
基于3D的高精度图像匹配技术
深度残差学习实现图像识别突破
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号