vit_base_patch16_224.orig_in21k_ft_in1k

项目介绍：vit_base_patch16_224.orig_in21k_ft_in1k

项目背景

vit_base_patch16_224.orig_in21k_ft_in1k 是一个图像分类模型，其基于Vision Transformer (ViT) 技术构建。此模型最初由学术论文的作者用JAX语言在ImageNet-21k数据集上进行训练，并在ImageNet-1k数据集上进行了微调。随后，该模型由Ross Wightman移植到PyTorch框架中，方便更多研究人员和开发者使用。

模型详情

模型类型

这是一个用于图像分类的模型，同时也可作为特征提取的骨干模型。

模型参数

参数数量：86.6百万
GMACs（计算复杂度度量）：16.9
激活数量：16.5百万
图像尺寸：224 x 224像素

数据集

预训练数据集：ImageNet-21k
微调数据集：ImageNet-1k

原始项目地址

感兴趣的用户可以从Google Research的Vision Transformer项目中获取更多相关信息。

模型用法

该模型主要用于图像分类任务。此外，它也可以用于生成图像特征嵌入，以下是使用示例：

图像分类示例

使用timm库加载模型，首先获取模型特定的变换（如标准化和调整大小），然后将图像通过这些变换处理，经模型预测输出分类结果。

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('vit_base_patch16_224.orig_in21k_ft_in1k', pretrained=True)
model = model.eval()

data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

图像嵌入示例

在生成图像特征嵌入时，模型可以输出特征向量，这些向量对于分类、聚类等下游任务非常有用。

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))

model = timm.create_model('vit_base_patch16_224.orig_in21k_ft_in1k', pretrained=True, num_classes=0)
model = model.eval()

data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)