eva02_base_patch14_448.mim_in22k_ft_in22k_in1k

eva02_base_patch14_448.mim_in22k_ft_in22k_in1k项目介绍

项目背景

eva02_base_patch14_448.mim_in22k_ft_in22k_in1k是一个图像分类模型，属于EVA02系列。这一系列的模型是视觉Transformer，通过使用EVA-CLIP作为掩码图像建模（MIM）的教师模型进行了预训练，并先后在ImageNet-22k和ImageNet-1k数据集上进行了微调。

模型细节

这个模型主要用于图像分类，作为特征提取的骨架。模型的参数数量为87.1百万，浮点运算数（GMACs）为107.1，激活函数数为259.1，输入图像尺寸为448x448。该模型结合了一些创新的技术特性，如均值池化、SwiGLU激活函数、旋转位置嵌入（ROPE）以及在MLP中的额外层归一化（LN）。

数据集

预训练数据集：ImageNet-22k
微调数据集：ImageNet-1k

模型使用方法

图像分类

用户可以通过Python代码使用timm库对图像进行分类。模型提供了预训练权重，并且包含用于图像标准化和尺寸调整的特定转换。

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://example.com/image.png'))

model = timm.create_model('eva02_base_patch14_448.mim_in22k_ft_in22k_in1k', pretrained=True)
model = model.eval()

data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # 转换单张图像并预测

图像嵌入

模型也可以生成图像的特征嵌入，这对于需要图像表示的任务很有用。

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://example.com/image.png'))

model = timm.create_model('eva02_base_patch14_448.mim_in22k_ft_in22k_in1k', pretrained=True, num_classes=0)
model = model.eval()

data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # 输出为特征嵌入

模型对比

在https://github.com/huggingface/pytorch-image-models/tree/main/results页面上，可以找到与其他模型进行对比的数据和运行指标。针对不同的模型配置及尺寸，eva02系列提供了多种选择，适应不同的需求。

引用

如需引用此项目，可以使用以下Bibtex格式：

@article{EVA02,
  title={EVA-02: A Visual Representation for Neon Genesis},
  author={Fang, Yuxin and Sun, Quan and Wang, Xinggang and Huang, Tiejun and Wang, Xinlong and Cao, Yue},
  journal={arXiv preprint arXiv:2303.11331},
  year={2023}
}

@article{EVA-CLIP,
  title={EVA-02: A Visual Representation for Neon Genesis},
  author={Sun, Quan and Fang, Yuxin and Wu, Ledell and Wang, Xinlong and Cao, Yue},
  journal={arXiv preprint arXiv:2303.15389},
  year={2023}
}

以上信息展示了eva02_base_patch14_448.mim_in22k_ft_in22k_in1k的优势和应用场景，让用户可以方便的将其用于图像分类和嵌入任务中。