convnext_atto.d2_in1k

项目介绍：convnext_atto.d2_in1k

convnext_atto.d2_in1k是一个用于图像分类的深度学习模型，基于ConvNeXt架构进行构建。该模型由Ross Wightman利用timm库在ImageNet-1k数据集上进行训练，用于在广泛的图像识别任务中应用。

模型详细信息

模型类型：图像分类 / 特征提取
模型参数：
- 参数量：约3.7百万
- 乘加运算次数：0.6 GMACs
- 激活函数：约3.8百万次
- 图像尺寸：训练用图像为224x224，测试用图像为288x288

该模型的架构借鉴自论文“A ConvNet for the 2020s”，并在GitHub上提供了开源代码：https://github.com/huggingface/pytorch-image-models。训练使用的数据集为广泛使用的ImageNet-1k。

模型的使用方式

图像分类

使用该模型进行图像分类非常简单，开发者可以在Python环境中使用以下步骤实现这一功能：

from urllib.request import urlopen
from PIL import Image
import timm

# 加载图片
img = Image.open(urlopen('图片URL'))

# 创建并加载预训练模型
model = timm.create_model('convnext_atto.d2_in1k', pretrained=True)
model = model.eval()

# 应用特定的图像变换
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

# 预测结果获取
output = model(transforms(img).unsqueeze(0))

通过调用模型，可以获取到输入图像的分类结果。

特征图提取

除了直接进行分类以外，该模型还可以用于提取特征图，帮助开发者理解图像中的更深层次特征：

# 创建特征提取模型
model = timm.create_model('convnext_atto.d2_in1k', pretrained=True, features_only=True)
model = model.eval()

# 处理输入图像
output = model(transforms(img).unsqueeze(0))

# 输出特征图形状
for o in output:
    print(o.shape)

图像嵌入

对于需要图像嵌入的任务，可以利用该模型生成一种压缩的图像表示：

# 创建不含分类器的模型以获得图像嵌入
model = timm.create_model('convnext_atto.d2_in1k', pretrained=True, num_classes=0)
model = model.eval()

# 获得嵌入
output = model(transforms(img).unsqueeze(0))