eva02_base_patch14_224.mim_in22k

eva02_base_patch14_224.mim_in22k项目介绍

项目背景

eva02_base_patch14_224.mim_in22k是一个强大的图像特征提取模型，预训练于ImageNet-22k数据集，并使用了掩码图像建模技术。该模型以EVA-CLIP作为基准教师模型，由研究该领域的学者提出，用于改善视觉表示。eva02系列的模型采用了先进的视觉Transformer架构，并结合了多种最新技术，如平均池化、SwiGLU、旋转位置嵌入和在多层感知器中的额外LN，确保了其卓越的性能。

模型详情

模型类型：图像分类/特征骨干
模型参数：
- 参数数量（百万）：85.8
- GMACs：23.2（表示模型计算量）
- 激活数量（百万）：36.6
- 输入图像尺寸：224 x 224
相关文献：
- EVA-02: https://arxiv.org/abs/2303.11331
- EVA-CLIP: https://arxiv.org/abs/2303.15389
开源地址：
- GitHub: https://github.com/baaivision/EVA
- Hugging Face: https://huggingface.co/Yuxin-CV/EVA-02

模型使用方法

图像分类

用户可以通过简单的Python代码来实现图像分类。代码主要涉及图像的预处理和使用预训练模型进行分类，最后输出模型预测的最可能类别。

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('eva02_base_patch14_224.mim_in22k', pretrained=True)
model = model.eval()

data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))

图像嵌入

模型还能用于提取图像特征嵌入。此功能可用于更复杂的视觉应用，如跨模态检索等。以下代码展示了如何从图像中提取特征向量。

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'eva02_base_patch14_224.mim_in22k',
    pretrained=True,
    num_classes=0
)
model = model.eval()

data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)

模型比较

该模型在与其他模型的对比中，显示了卓越的性能和较高的参数效率。表格中提供了与其他模型的一些重要指标的对比，供研究者选择最合适的模型。

引用

研究者可以使用以下BibTeX格式的引用文献来引用本项目及其相关工作：

@article{EVA02,
  title={EVA-02: A Visual Representation for Neon Genesis},
  author={Fang, Yuxin et al.},
  journal={arXiv preprint arXiv:2303.11331},
  year={2023}
}

总的来说，eva02_base_patch14_224.mim_in22k模型凭借其先进的技术和出色的性能，为学术界和工业界的图像理解任务提供了一个重要的发展工具。通过其强大的图像理解能力，用户能够在多个领域中实现出色的视觉应用。