图像识别

学术文献中图表精准识别工具

深入解析ResNet-152在图像分类中的应用

开源零样本对象检测模型,支持多文本查询

应用于多任务的图像文本生成模型

中文数据驱动的多模态对比学习工具

实时开放词汇目标检测模型 支持批量多任务处理

基于Donut架构的无OCR文档理解与问答模型

领先的多模态AI模型 支持多图像视频和3D输入处理

Vision Transformer模型在2100万图像 数据集上预训练

基于亲和力模仿和权重继承的CLIP模型压缩方法

基于shifted windows的分层视觉Transformer图像处理模型

基于神经网络的病理切片图像分析与特征提取模型

基于自然视觉提示的多模态语言模型

多模态AI模型实现图像和视频的深度理解

无需图像编码器的轻量级多模态开源模型

InstructBLIP视觉语言模型实现智能图像理解与对话

Meta推出支持图文交互的语言模型

VGG16-CRNN文字识别模型

轻量级视觉问答模型实现实时图像对话

日语CLIP模型实现跨模态文本图像语义匹配
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号