
全新多模态智能体实现长文本多图像及视频的智能理解

VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率

DeiT架构图像分类模型 基于ImageNet-1k训练的高效Transformer

实时目标检测革新者RT-DETR超越传统性能表现

Google OWLv2模型实现零样本开放词汇目标检测

Mask2Former:集实例、语义和全景分割于一体的图像分割模型

MAE预训练Vision Transformer模型的图像处理能力

基于OpenDalleV1.1的高级AI图像生成模型

基于CLIP架构的大规模数据集训练图像识别模型

高效压缩分割模型实现接近原始SAM性能

单目深度估计新突破:高精度细节与高效性能的完美平衡

基于BEiT主干的DPT模型实现单目深度估计

Mask2Former:统一架构实现多类型图像分割

统一表示实现多种视觉任务的AI基础模型

Donut模型:革新文档理解的图像到文本AI技术

基于GranD数据集的区域级理解和分割预 训练模型

EVF-SAM优化文本引导的Segment Anything Model性能

改进CLIP的多模态预训练模型SigLIP

基于3D的高精度图像匹配技术

深度残差学习实现图像识别突破
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号