convnextv2-base-22k-384

项目介绍：ConvNeXt V2 - Base Model in CV领域的创新

项目背景

ConvNeXt V2是一个基于卷积神经网络（ConvNet）的模型，它在图像分类领域具有显著的性能提升。此模型由Woo等人在论文“ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders”中提出，并首次在Facebook研究部门的开源库中发布。该模型经过FCMAE框架预训练，并在ImageNet-22K数据集上以384x384的分辨率进行微调。

模型描述

ConvNeXt V2模型是一个全卷积模型，引入了全卷积遮盖自动编码器框架（FCMAE）和新的全局响应归一化（GRN）层，以增强传统ConvNet的能力。通过这些创新，ConvNeXt V2模型在多种识别基准测试中的表现有了显著改善。

模型结构图

应用场景及局限性

ConvNeXt V2模型主要用于图像分类任务。用户可以使用该模型的原始版本进行图片分类操作。此外，还可以在模型集线上查找适合特定任务的微调版本。

如何使用

以下是如何利用ConvNeXt V2模型将COCO 2017数据集中的图像分类为1,000个ImageNet类别之一的示例：

from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-base-22k-384")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-base-22k-384")

inputs = preprocessor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# 模型预测出1,000个ImageNet类别中的一个
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

更多代码示例可以参考详细文档。

论文引用信息

欲引用该模型的相关工作，请参见以下BibTeX条目：

@article{DBLP:journals/corr/abs-2301-00808,
  author    = {Sanghyun Woo and
               Shoubhik Debnath and
               Ronghang Hu and
               Xinlei Chen and
               Zhuang Liu and
               In So Kweon and
               Saining Xie},
  title     = {ConvNeXt {V2:} Co-designing and Scaling ConvNets with Masked Autoencoders},
  journal   = {CoRR},
  volume    = {abs/2301.00808},
  year      = {2023},
  url       = {https://doi.org/10.48550/arXiv.2301.00808},
  doi       = {10.48550/arXiv.2301.00808},
  eprinttype = {arXiv},
  eprint    = {2301.00808},
  timestamp = {Tue, 10 Jan 2023 15:10:12 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2301-00808.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}