
高效的实时端到端物体检测工具

通过CLIP模型探索计算机视觉鲁棒性

ViP-LLaVA的多模态对话与视觉指令协同应用

自监督模型SuperPoint提高多视图几何问题的兴趣点检测和描述

高效的实时目标检测系统

探索OpenAI提出的CLIP模型在计算机视觉任务中零样本分类的潜力

介绍OWLv2模型在零样本物体检测中的应用与发展

强化跨模态大语言模型的能力

大规模多模态模型的开源项目介绍

Vision Transformer图像分类模型支持大规模数据训练

YOLOv10n:实时对象检测的创新技术

开源大规模视频语言模型,提升视频描述和理解能力

DETR模型:结合ResNet-50的端到端目标检测与全景分割

基于LLaVA-1.5的轻量级多模态模型配置工具

Vision Transformer模型在2100万图像数据集上预训练

基于shifted windows的分层视觉Transformer图像处理模型

Meta开源的新一代图像视频智能分割模型

采用Sigmoid损失函数的开源计算机视觉模型

Apple开源的高性能混合视觉Transformer图像处理模型

前沿视觉语言模型助力图像识别和推理
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号